У меня есть секретный сайт (в PHP и Mysql), где пользователи могут размещать свои объявления бесплатно. Но пользователи часто публикуют повторяющиеся объявления. Сценарий не позволяет им размещать точное дублирующее содержимое, поэтому они делают это, изменяя один или два символа.Как удалить дублирующее содержимое?
Есть ли способ найти дублирующее объявление и предупредить пользователя (даже если они изменили часть текста)?
Мой сайт находится в PHP и Mysql. Я использую sphix для поиска. Думая об изменении этого на mongodb и apache solr.
Как далеко вы хотите проверить, не дублируется ли содержимое? Сколько персонажей? Вы можете работать с ограничением, которое люди могут размещать только один раз в неделю или около того. –
Ваши пользователи добавляют поддельные параметры, т. Е. Http://foo.com/image.png?fakeparam=1? В этом случае вы можете отключить все параметры и учитывать только URL без параметров. Однако это не остановит людей от повторного загрузки одного и того же файла с другим именем ... –
@ Alexander Cogneau Я буду рассматривать рекламу как дубликат, если содержание на 80% аналогично (за исключением стоп-слов, таких как is, the, was, там и т. д.). Нет, мы не можем ограничивать публикацию нескольких объявлений в тот же день. Мы можем вручную узнать дублирующее содержимое, отправленное в тот же день, но не можем выполнить поиск на одной неделе старых сообщений –