Фильтруй базар

Ну, а если уж случилось так, что спам хлынул широкой мутной рекой, и у тебя нет возможности сменить адрес почтового ящика (он может использоваться для важных контактов, и тебе проще получать спам, чем потерять средство связи с полезными адресатами), тогда единственный вариант — фильтровать, фильтровать и ещё раз фильтровать. Ведь спамеры — они, конечно, хитрованы, но программисты — они тоже не дураки!

Конечно, существует способ, не требующий вообще никаких программных решений — посадить за разгребание электронной почты твою секретаршу, чтобы она чистила её от спама. Но по вполне понятным причинам этот способ может быть чрезвычайно неудобным.

Поэтому лучше всё-таки использовать компьютерные методики, ведь они, во-первых, на порядок эффективнее, во-вторых, на порядок быстрее, а в-третьих, на несколько порядков менее любопытные, и содержание твоей почты их совершенно не интересует.

Как работают эти фильтры? Обычно в них используется комплексный подход — то есть комбинация различных, иногда весьма сложных методов. С одной стороны, тебе можно всем этим голову не забивать, но с другой — весьма полезно хотя бы в общих чертах представлять механизмы работы антиспамерских фильтров, чтобы понимать, почему те или иные письма ими не отфильтрованы или наоборот — почему фильтр скушал вовсе не спамерское письмо.

Попробую изложить все эти методики обнаружения спама простым и доступным, надеюсь, языком...

1. Анализ текста письма

Большинство мусорных рекламных писем характеризуются довольно специфическими словосочетаниями, которые крайне редко присутствуют в обычной почте. Например, «выгодное вложение», «только у нас вы найдёте», «девочки для состоятельных господ», «увеличь свой пенис» и «виагра для обиженных жизнью».

2. Анализ по образцам

Существуют весьма продвинутые методы, позволяющие обнаружить спам по специальным образцам. Ведь не секрет, что ничего существенно нового рекламщики не выдумывают, а просто постоянно перелицовывают одно и то же старое пальтецо немудреных «находок» из серии «Вы не настолько богаты, чтобы покупать у Пупкина! Купите у Мокина — будет вам ЩАСТЕ!». Они берут уже сто лет навязший на зубах слоган, меняют там Пупкина и Мокина на Селедкина и Морковоперегрызского, после чего отправляют полученную несъедобную кашицу в массовую рассылку Антиспамерский фильтр по заложенным образцам умеет очень быстро отслеживать наиболее распространенные модификации всех этих слоганов, восходящих ещё к распродаже Ноем утвари с ковчега, что позволяет весьма точно отделить овнов от козлищ — то есть нормальной почты от спама.

3. Негодяйские списки

Многие провайдеры ведут так называемые «черные списки» адресов, откуда может валиться спам. Разумеется, это не адреса ящиков (они спамерами почти всегда подделываются а специальные интернетовские (IP) адреса, которые заслужили плохую репутацию в современном электронном обществе.

4. Стандартные спамерские признаки

Соответствующие спамерские технологи порождают определенные четко улавливаемые признаки: отсутствие в письме поля «От кого», «Кому», несуществующий IР-адрес отправителя и так далее. В нормальных электронных письмах такого не бывает.

5. Графические вложения

He так давно спамеры, казалось бы, придумали, как навсегда обмануть фильтры — стали рассылать рекламные тексты в виде графических файлов, которые невозможно проанализировать обычными методами. Однако доблестные программисты весь этот атом направили на мирные цели — разработали хорошие алгоритмы (так называемая «технология нечетких сравнений»), позволяющие как раз весьма эффективно идентифицировать подобные уловки как спам, не смешивая их с честными графическими файлами — картинками, сканами документов и фотографий девушек с торчащими грудями.

6. Спамерские трюки

Ещё один традиционный спамерский способ — пытаться обмануть фильтры путем включения в текст рекламного письма бессмысленного набора символов или кусков из стихотворений Пушкина. На самом деле эти трюки легко отслеживаются и наоборот — в первую очередь свидетельствуют о спаме.

Как уже говорилось, работает это всё в комплексе. Нельзя отбрасывать письмо, например, только при наличии в нём фразы «Только у нас» или слова «Приобретите» — это приведёт к большому количеству ложных срабатываний. Поэтому фильтр работает весьма интеллектуально. Он составляет оценку каждого письма, анализируя его по целому ряду вышеперечисленных признаков. В результате получается так называемый весовой коэффициент, величина которого, грубо rоворя, позволяет отнести письмо к одной из следующих категорий:

1. Не спам.

2. Вероятно, спам.

3. Точно спам.

Кроме того, фильтр может быть персонально обyчаемым — то есть ты сам объясняешь ему, что именно ты считаешь спамом, а что нет. (Особенно это полезно в случаях почты, которая определяется как вероятный спам или рассылок, которые стали тебе неинтересны, отправлены в историю, но продолжают насильственно появляться на твоём экране.)

Что делать с категориями «вероятно, спам» и «точно спам» — ты решаешь сам. To, что не на 100% определяется как спам — требует рассмотрения и анализа. To, что фильтр с высокой долей достоверности считает спамом — можно, не глядя, откидывать в специальную папку. В дальнейшем, если вдруг ты забеспокоишься, что всё никак не приходит очень важное для тебя письмо от некоего человека, можно поискать в этой папке — а вдруг это письмо случайно туда попало...

Используй то, что под рукой

Где взять эти фильтры? Как их настраивать и как использовать?.. Есть разные способы: персональные и корпоративные.