2010-07-22 4 views
5

Меня всегда удивляет высокое качество спам-фильтра Gmail. За последний год он отфильтровал 99,95% спама и по ошибке заблокировал только одну почту. Для сравнения, любая другая почтовая служба, которую я использовал, совершает хотя бы одну ошибку на каждые 50 писем.Как работает спам-фильтр Gmail?

Как, внутренне, Gmail делает это, чтобы достичь такого уровня качества? На основе отзывов клиентов (т. Е. Если N клиенты блокируют почту как спам, она сортируется как спам для каждого другого клиента)? Или есть какой-то трюк? Может быть, основной фильтр-фильтр фильтрует наиболее очевидный спам, а некоторые сложные случаи анализируются реальными людьми?

+4

Hahaha. Забавно. Спросите нас, как работает авторский, коммерчески секретный алгоритм Googles. Почему бы не спросить их? –

ответ

8

Коротко говоря, это основано на обращении сообщества . Вот цитата из официального объяснения:

Пользователи Gmail играют важную роль в сохранении спам-сообщений из миллионов почтовых ящиков. Когда сообщество Gmail голосует со своими кликами, чтобы сообщить о том или ином письме как спаме, наша система быстро научится блокировать подобные сообщения. Чем больше спама сообщают сообщества, тем умнее наша система.

Вы можете прочитать немного об этом на своей странице Spam Explained.

7

Это вопрос в миллион долларов, и если бы на него можно было ответить на stackOverflow, то каждый спам-фильтр был бы таким же эффективным.

+0

Это не так очевидно. Как я уже сказал, возможно, Google нанимает людей для фильтрации сложных случаев, или фильтр основан на отзывах пользователей. В этом случае, да, каждый, кто может нанимать людей, чтобы делать это или полагаться на сообщество в целом, мог бы создать эффективный спам-фильтр. –

+0

Нет, это не так, потому что высокое качество их спам-фильтра связано с большим количеством данных, которые у них есть. См. Доклад Питера Норвига «Необоснованная эффективность данных» – Wes

2

Я действительно не знаю, как именно Google делает спам-фильтрацию (но я думаю, что это деловая тайна). Если вас интересует, как работает фильтрация спама, я бы рекомендовал посмотреть на фильтрацию байесовских СПАМ (http://en.wikipedia.org/wiki/Bayesian_spam_filtering). Это довольно простой способ понять.

-1

Google, скорее всего, использует систему классификаторов, такую ​​как логистическая регрессия или нейронные сети. Современное обнаружение спама часто использует алгоритмы машинного обучения, такие как эти.

Классификация выходных данных - это «Спам» или «Не спам», и я уверен, что входы являются секретными для Google, но я уверен, что некоторые текстовые фразы электронной почты, такие как «Купить сейчас», «Вкл. Продажа "," Viagra ", или" Male Enhancement "- все это факторы в их модели.

Смежные вопросы