Разработка динамических сайтов
SEO услуги
Управление контекстной рекламой

Вход на хостинг

Имя пользователя:*

Пароль пользователя:*

IT-новости

20.04.2016 iPhone 2017 года поместят в водонепроницаемый корпус из стекла

Линейка iPhone в новом году серьезно поменяется. В этом уверен аналитический исследователь Мин Чи Ку......

подробнее

30.07.2015 Ищем уникальный контент для сайта

Ищем уникальный контент для сайта Без уникального контента Ваш сайт обречен на то, что его страницы......

подробнее

11.05.2015 Распространённые ошибки разработчиков сайтов

Не секрет, что в сети Интернет насчитывается миллионы сайтов, и каждый день появляются тысячси новых......

подробнее

 

p('Привет') = 35 / (35 + 64) = 0,35

p('Купи') = 187 / (187 + 19) = 0,91

p('меня') = 9 / (9 + 11) = 0,45

S= 0,35 * 0,91 * 0,45 = 0,14

G= (1 – 0,35) * (1 – 0,91) * (1 – 0,45) = 0,03

P= 0,14 / (0,14 + 0,03) = 0,82

Таким образом, приведенный выше пример будет с вероятностью 82% нежелательным сообщением, в основном за счет высокой спамности слова «Купи».

В алгоритме, предложенном Полом Грэмом (Paul Graham), для расчета применяется приведенная выше методика с использованием следующих правил:

n  Для анализа сообщений используются не все слова, а 15 наиболее «интересных», для которых p(w) наиболее сильно отклоняется от нейтрального значения 0,5.

n  Если ранее слово встречалось менее чем в пяти письмах, оно игнорируется.

n  Новое слово, не встречавшееся ранее, получает стартовую «спамность» 0,4 (своего рода презумпция невиновности).

Алгоритм Бартона (Brian Burton) работает аналогично, но использует для анализа не 15, а 27 наиболее ярких слов, а также допускает «удвоенное» использование слова, если оно встречается в сообщении несколько раз. Это несколько повышает эффективность при ограниченных данных. Кроме того, поддерживаются цепочки «токенов», когда два стоящих рядом слова рассматриваются вместе. Также некоторые отличия от подхода Грэма имеются в наборе символов, которые считаются составной частью слова (такие, как $, ! и т. д.).

Следующий популярный алгоритм, разработанный Гари Робинсоном (Gary Robinson), модернизирует формулу Грэма таким образом, чтобы решить проблему недостаточных исторических данных:

f(w) = (0,5 + n(w) * p(w)) / (1 + n(w))            (3)

 

где:

n  p(w) – вероятность для слова, рассчитанная на основе исторических данных;

n  n(w) – количество ранее обработанных сообщений со словом w.

Таким образом, если анализируемое слово ранее не встречалось, оно автоматически получит коэффициент 0,5, а по мере накопления статистики это значение будет выходить на свой естественный уровень.

В дальнейшем в формулах (2) вместо величин p(w) используется f(w).

Для анализа по алгоритму Робинсона используется выборка из 25 слов.

На базе алгоритма Робинсона был разработан улучшенный алгоритм Фишера-Робинсона, известный также как Chi-Square (переводить на русский язык не рискну). Помимо расчета «спамности» сообщения вычисляется также вероятность его «неспамности» по формуле Фишера, и в дальнейшем рассматривается интегральная вероятность.

В фильтре DSPAM реализована поддержка всех четырех описанных здесь алгоритмов. Причем анализу подвергается не только тело сообщения, но и заголовок. Разработчик не рекомендует совмещать фильтры Грэма и Бартона с фильтрами Робинсона во избежание ложных срабатываний.

Способы интеграции DSPAM с почтовой системой

Система DSPAM поддерживает два способа взаимодействия с почтовым сервером. В первом случае он может быть настроен как локальный агент доставки (LDA – local delivery agent). При этом сообщения анализируются по пути от MTA к почтовому ящику. После обработки фильтром почта отдается на обработку реальному LDA, который и завершает доставку.

Второй способ – работа DSPAM в сотрудничестве с POP3-proxy. При этом спам отсеивается в то время, когда пользователь выкачивает корреспонденцию из своего почтового ящика по протоколу POP3.


Предыдущая страницаОглавлениеСледующая страница
 
[001] [002] [003] [004] [005] [006] [007] [008] [009] [010] [011] [012] [013] [014] [015] [016] [017] [018] [019] [020]
[021] [022] [023] [024] [025] [026] [027] [028] [029] [030] [031] [032] [033] [034] [035] [036] [037] [038] [039] [040]
[041] [042] [043] [044] [045] [046] [047] [048] [049] [050] [051] [052] [053] [054] [055] [056] [057] [058] [059] [060]
[061] [062] [063] [064] [065] [066] [067] [068] [069] [070] [071] [072] [073] [074] [075] [076] [077] [078] [079] [080]
[081] [082] [083] [084] [085] [086] [087] [088] [089] [090] [091] [092] [093] [094] [095] [096] [097] [098] [099] [100]
[101] [102] [103] [104] [105] [106] [107] [108] [109] [110] [111] [112] [113] [114] [115] [116] [117] [118] [119] [120]
[121] [122] [123] [124] [125] [126] [127] [128] [129] [130] [131] [132] [133] [134] [135] [136] [137] [138] [139] [140]
[141] [142] [143] [144] [145] [146] [147] [148] [149] [150] [151] [152] [153] [154] [155]

+7 (831) 413-63-27
ООО Дельта-Технология ©2007 - 2023 год
Нижний Новгород, ул. Дальняя, 17А.
Rambler's Top100