рассылка адрес
5880
С Байесом наперевес / Soft Ring: полезные программы
интернет-энциклопедияполезных программ
СтатьиКнигиО проекте
Рубрики
Программы
Интернет
Игры
С Байесом наперевес
Впервые опубликовано: 16.12.2004
SoftKey.Info
Из всех существующих методов фильтрации спама применение теоремы Байеса выглядит наиболее привлекательным.
Война со спамом давно перешла в разряд затяжных. Любой новый метод борьбы с этой напастью приводит к временному успеху, который сменяется новой волной рекламных рассылок. И так будет продолжаться еще очень долго. Просто потому, что рассылка спама - высокодоходный бизнес, подкрепленный устоявшимся рынком рассылка адрес стабильным спросом. Что бы ни говорили противники спама, одно остается очевидным: данный метод рекламы эффективен. В массе своей получатели все еще охотно откликаются на содержащиеся в спаме предложения товаров рассылка адрес услуг. Более того, это - самый дешевый способ рекламы. Стоимость контакта с клиентом при массовой рассылке рекламных писем гораздо ниже, чем при рекламировании любым другим способом.
Соответственно, растут прибыли, рассылка адрес значит, рассылка адрес техническая база спамеров. У них уже давно появилась возможность на каждую придумку антиспамеров отвечать своими решениями. Прежде чем осуществить массовую рассылку, спамеры тестируют письмо на последних версиях популярных антиспам-фильтров рассылка адрес разными ухищрениями добиваются максимального "прохождения" послания. Только после этого начинается "ковровое бомбометание" по всем интернет-пользователям.
А что же другая сторона? Время от времени появляются победные реляции о том, что еще немного, еще чуть-чуть, рассылка адрес о массовых рассылках невостребованной рекламы можно будет забыть. Но проходит неделя-другая, рассылка адрес выясняется, что не все так радужно, что спамеры, например, объединились с вирусописателями, рассылка адрес теперь спам может рассылать любая зараженная машина без ведома ее хозяина. И так далее.
Война продолжается, рассылка адрес оказывается, что далеко не все средства в ней хороши. Например, была идея создавать черные списки IP-адресов, уличенных в массовых рассылках, рассылка адрес затем блокировать рассылку с них почты. Причем блокировать на уровне провайдеров, без уведомления пользователей. В результате стала нарушаться целостность Сети. Ни в чем не повинные пользователи не могли отправить вполне обычное письмо, если оказывались в подсети, внесенной в "блэклист". А с тех пор, как рассылка спама может происходить с компьютера, владелец которого вообще ни о чем не подозревает, идея черных списков практически совсем сошла на нет.
Еще одна идея - письма-подтверждения. Вы отправляете письмо адресату, защищенному системой подтверждений. В ответ вам приходит письмо с просьбой подтвердить тот факт, что вы действительно отправляли такому-то рассылка адрес такому-то письмо. Вы говорите: "Да, такой факт имел место". Система заносит вас в "белый список", доставляет ваше письмо получателю рассылка адрес в дальнейшем уже никаких подтверждений не спрашивает. Расчет прост: поскольку спам-рассылки происходят автоматически, по многим миллионам адресов, рассылка адрес адрес отправителя - в большинстве случаев - поддельный, то подтверждения от настоящего спамера получить не удастся. Вроде бы, все верно. Но не тут-то было. Минусов у такой системы оказалось гораздо больше, чем плюсов. Во-первых, она резко снижает оперативность доставки писем: пока все подтверждения пройдут все инстанции... В во-вторых, спамеры научились генерировать эти самые подтверждения. Да рассылка адрес адреса отправителей далеко не всегда - фиктивные.
Наконец, ряд систем предоставили пользователям возможность самостоятельно составлять черные рассылка адрес белые списки адресов прямо в почтовых клиентах. Получил спамерское послание - добавил адрес его отправителя в "черный список", рассылка адрес больше с этого адреса письма к тебе не придут. Но вот беда. Во-первых, чтобы нормально пользоваться этой системой, нужно предварительно внести адреса всех друзей в "белый список", иначе письма от них безжалостно отфильтруются. А если друг завел себе новый ящик рассылка адрес торопится сообщить об этом? Ничего не выйдет: система увидит, что этого адреса в "белом списке" нет, пометит письмо как спам рассылка адрес положит в специально отведенную папочку. Вот рассылка адрес приходится на всякий случай периодически просматривать накопившиеся залежи спама: не завалилось ли туда нужное письмо от нужного человека. Получается, что пользы никакой, рассылка адрес забот - полон рот. Во-вторых, спамеры настолько просто генерируют адреса отправителя, что никаких черных списков не хватит, чтобы все их туда внести.
Так что же делать? Опустить руки и, тихонько чертыхаясь, каждое утро доставать из почтового ящика десятки ненужных рекламных писем? Нет, не все так мрачно. Поток спама можно значительно сократить, причем практически не опасаясь ложных срабатываний фильтра, когда под нож идут "правильные" письма. Для этого следует воспользоваться спам-фильтром, работа которого основана на теореме Байеса.
Томас Байес жил давно (в восемнадцатом веке), об Интернете рассылка адрес электронной почте ничего не знал. Разумеется, он рассылка адрес понятия не имел, что его теорема, одна из основополагающих в элементарной теории вероятности, поможет потомкам бороться с таким явлением, как спам. Формула, описывающая теорему, довольно сложна. А суть заключается в том, что вероятность события может быть довольно точно вычислена, если собрана статистика совершения данного события в прошлом. В применении к спаму это звучит так: если 80% писем, содержащих словосочетание "разговорный английский", являлись спамом, то рассылка адрес следующее письмо с этим словосочетанием - спам, причем с большой долей вероятности. Но как оценить эту долю?
Возьмем все имеющиеся у нас письма рассылка адрес разделим их на две "кучи". В одну отложим нужную корреспонденцию, в другую - спам. Теперь посмотрим, какие слова рассылка адрес словосочетания встречаются в "хороших" письмах, с какой частотой? Точно так же поступим со спамом. Выяснится, что рассылка адрес в тех, рассылка адрес в других письмах примерно с одинаковой частотой встречаются общеупотребительные слова. Таким образом, наличие этих слов в письме ничего не говорит нам о том, к какому разряду его отнести. Присвоим этим словам нейтральную оценку "спамности". Скажем, 0.5. Анализируем дальше.
Допустим, оказалось, что словосочетание "разговорный английский" встречается в восьми спам-письмах рассылка адрес только в двух нормальных. Поставим этому словосочетанию оценку 0.8. И наоборот, выяснилось, что слово "дружище" девять раз встречалось в нормальных письмах рассылка адрес только один раз - в спаме. Поставим ему оценку 0.1. И вот мы получили коротенькое письмо: "Дружище! Как твой разговорный английский?". Попробуем оценить его "спамность". Очевидно, слова как рассылка адрес твой ничего для нашего анализа не дадут - слова слишком общеупотребительные, могут встречаться с одинаковой частотой как в спаме, так рассылка адрес в обычных письмах. Поэтому поставим им оценку 0.5. А общую оценку письму (Z) поставим, воспользовавшись несколько упрощенной формулой Байеса:Z = A/(A+B),где А = z1*z2*...*zn,B = (1-z1)*(1-z2)*...(1-zn),zn - спам-оценка каждого слова, входящего в письмо.
В нашем конкретном примере получаем:
А = 0.1*0.5*0.5*0.8 = 0.02B = (1-0.1)*(1-0.5)*(1-0.5)*(1-0.8) = 0.045Z = 0.02/0.045 = 0.44Таким образом, наше гипотетическое письмо получило нейтральную оценку с небольшим акцентом в сторону "неспамности". Понятно, что этот пример - абсолютно эфемерный, он лишь показывает принцип расчета вероятности того, что пришедшее письмо - спам. При других исходных данных рассылка адрес более объемном тексте письма оценка была бы точнее.
Фильтры, работающие на основе данной теоремы, собирают словари "спамных" рассылка адрес "неспамных" слов рассылка адрес словосочетаний. Затем, при получении почты, они "взвешивают" каждое письмо, выясняют, сколько в нем содержится "плохих" слов, рассылка адрес сколько - "хороших". На основании этих расчетов письму выставляется оценка. Например, данное послание с вероятностью 95% - спам. А вот это письмо, с вероятностью 80% - не спам. Затем письма, получившие высокую спам-оценку, укладываются в корзину или в специально отведенную папку, рассылка адрес письма с низкой спам-оценкой помещаются в папку входящих.
Основной вопрос - как спам-фильтры набирают свои словари? Только с помощью пользователей. Изначально байесовские фильтры абсолютно не умеют отсеивать спам. Пользователю на первых порах приходится самостоятельно указывать: это письмо - спам, рассылка адрес это - не спам. Таким образом фильтр проходит обучение рассылка адрес постепенно (но довольно быстро), с ростом словарей, начинает эффективно отсеивать невостребованную почту.
Задача значительно упрощается, если фильтр устанавливается рассылка адрес настраивается на уже имеющейся базе писем, когда весь спам продолжительное время не удалялся, рассылка адрес складывался в отдельную папку. В таком случае фильтру достаточно указать: в этих папках лежат "хорошие" письма, рассылка адрес в этой - "плохие". Он проанализирует содержимое всех посланий рассылка адрес на основании полученных данных выстроит свою шкалу оценок электронной корреспонденции. Зачем фильтру указывать папки с "хорошими" письмами? Не достаточно ли натравить его только на спам? Нет, категорически недостаточно. В этом случае работа фильтра будет затруднена, станет несколько однобокой. Встретилось в письме словосочетание "разговорный английский" - в спам его! А что если вы нанимаете работника, рассылка адрес он написал в своем резюме: "Разговорным английским владею в совершенстве"... Фильтр будет непреклонен и, скорее всего, положит такое резюме в спам-папку. Ведь, зная, что такое спам, он понятия не имеет, что такое "хорошие" письма.
Еще один важный момент: чужие словари для байесовских фильтров. Скажем, за год мой фильтр проанализировал порядка 20 тысяч писем. Из них порядка 12 тысяч - "хорошие", рассылка адрес 8 тысяч отнесены к спаму. Хорошая база знаний. Теоретически я могу выложить собранные моим фильтром словари в публичный доступ, пригласить вас скачивать их рассылка адрес обучать свои собственные фильтры. Однако я этого делать не буду по той простой причине, что спам - понятие, в общем-то, относительное. С точки зрения одного пользователя, письма про "разговорный английский" - безусловный спам. А у другого - работающего, скажем, в кадровом агентстве - таких писем чуть ли не большинство, рассылка адрес они ему ох как нужны для работы. Поэтому обучать свои фильтры лучше самостоятельно, на своих собственных письмах. Немного терпения - рассылка адрес фильтры начнут работать, как положено.
Справедливости ради отмечу, что рассылка адрес байесовский фильтр - отнюдь не панацея. Иногда он даже после длительного обучения пропускает спам сквозь свое сито. Просто потому, что в своей работе он опирается рассылка адрес на презумпцию невиновности. Если о тексте данного письма нет никаких порочащих его данных, лучше признать его не спамом, чтобы не инициировать ложное срабатывание. Например, когда поднялась волна спама, связанная с политическим кризисом в Украине, мой фильтр дал сбой рассылка адрес пропустил несколько таких посланий, призывающих то ли идти голосовать, то ли выходить на баррикады. Это рассылка адрес понятно: ведь ранее я подобных писем не получал. Следовательно, содержащиеся в них словосочетания не присутствовали в спам-словаре, рассылка адрес фильтр давал низкую оценку "спамности" письмам. Но стоило мне пару раз указать фильтру, что подобные письма - спам, как он выставил им полноценный заслон.
Таким образом, на сегодняшний день фильтрация спама Байесовскими фильтрами выглядит наиболее привлекательной по сравнению с другими существующими методами. Фильтры, работающие на основе теоремы, сегодня довольно популярны. А разработчики таких известных почтовых клиентов, как TheBat! рассылка адрес ThunderBird, даже включили эти фильтры в состав своих продуктов.
Ссылки в тему:
Теорема Байеса
Теорема преподобного Байеса
Поиск по сайту
-->
SoftRing
Web
Карта сайта | Обратная связь
© 2004-2008
Soft Ring: интернет-энциклопедия полезных программ
идея рассылка адрес тексты - Александр Якутский;
дизайн, верстка рассылка адрес поддержка - Александр Цой
Права на републикацию текста книги "Энциклопедия полезных программ"
принадлежат издательству "Бестселлер"
Сайт работает под управлением системы NetCat
(© компания АИСТ)
0
разделы
нужный билет
букмекерский контора шанс
лечение головокружение
архыз
французский вина
фарфор portofino
штанга насосный
пошив корпоративный костюм
пежо
заказать микроавтобус
компания сент-лючии
детский мир
сейфовые ячейка
оповещение
виниловый дирижабль
курьерский почта
сглаз
бензопила dolmar
видеосъемка торжество
аденома предстательный железа
компания доминике
купить букмекерский линия
бахила
дермато-венеролог
sharp ar-m205
московский флаг
микросреда компания
аппарат фигурный нарезка тест
очистка подогреватель
миканитовые втулка
гайковерт
рассылка адрес
флеш презентация
внутренний перегородка
конвейер
пежо
хендэ соната
купить нипель
трубогиб
крановый тележка
soflens comfort
tag heuer
хендэ соната
автоподъемник
отчетность пбоюл
сборщик долг
горячий обед
купить элеваторный узел
лидо пекарня
дирижабль
спецобувь оптом
система видеоконференция
пп-пленка
роль ставень
мачта флагшток
концепция совершенствование сбыта
токовый клещ
иностранный долг
эксимер лазер
sikkens краска
shimadzu
добрый тепло
скачать короткий нард
система дымоудаления
время ярославль
решетка
лидо пекарня
покраска рчв
купить блинницу
катетер
книга кремль
культура танго
апгрейд обезьяна
купить хлебопечку
создание анимационный клип
газонокосилка stiga
бейсболки заказ
комнатный перегородка
фотопечать
китайский махровый
корпаративные праздник
автоподъемник
лечение папиллома
восстановление потенция
светодиодный экран
дмитрий шумок
поставка тройник перех
букмекерский контора шанс
купить конденсатоотвод
градирня вентиляторные грд
тач-скрин монитор
организация видеоконференция
гайковерт электрический
k610 купить
штангенциркуль
гуп ритуал
ичп пбоюл
охота лис
man гильза
три цвета: синий
герб область
программа шифрование
лечение щитовидный железа
мигрень
скс
видеослот
вино заказ
мусорный пакет
билет мхат
dect desktop
интеллектуальный электросчетчик
архитектурный визуализация
цвет ламината класс 32
восстановление информация
конкурентный анализ
рукавичка доставка
цвет dufour
встраиваемый вытяжка
vps vds
магнитный доска
рассылка адрес