2014-01-20 4 views
1

Я работаю над проектом, связанным с фильтрацией спама. Многие из вас могут знать об этой технике, используемой спамерами:коллекция вариантов слов с использованием специальных символов

  1. письма «элементы», как «| ТЭМ» (труба вместо I)
  2. $ эля вместо продажи
  3. h0t вместо горячей (ноль вместо буквы «о»)

и т.д. и т.п.

мне интересно, если есть для всех таких возможных вариантов слов с использованием специальных символов базы данных? Или кто-нибудь знает о какой-то хорошей стратегии для решения этой трюки?

В настоящее время, что я сделал, я просто заменяю '@' на 'a', '|' с 'i', '$' с 's' и так далее. Мне нужно ваше мнение по этому вопросу! Пожалуйста помоги.

+0

Присылайте любые идеи и предложения, которые у вас есть в голове, прежде чем голосовать, чтобы закрыть вопросы :(! – kunal18

ответ

1

Кажется, вы принимаете сообщение в качестве отправной точки и пытаетесь его преобразовать.

Еще один аспект может заключаться в определении списка слов, которые могут быть изменены (продажа, виагра и т. Д.), А затем генерировать все возможные подобные слова. В качестве меры сходства вы можете взять расстояние Левенштейна.

+0

спасибо :)! Я никогда не думал о расстоянии Левенштейна! Если я использую словарь, я могу получить список возможных слов для модифицированных слов, а затем я должен как-то выбрать лучший! – kunal18

+1

Я рад, что могу помочь, однако это просто простая идея - должно быть, было много исследований в области обнаружения спама. Я думаю, что http://scholar.google.be/scholar?q=spam является наиболее подходящим источником здесь. –

Смежные вопросы