2008-11-29 3 views

ответ

4

Должен ли я изменить или отредактировать файл robots.txt или изменить что-то?

Зависит от бота. Некоторые боты послушно игнорируют robots.txt. У нас была аналогичная проблема 18 месяцев назад с ботом Google AD, потому что наш клиент покупал Soooo много объявлений. Боты Google AD (как задокументировано) игнорируют исключения (*), но прислушиваются к явным игнорированиям.

Помните, что боты, которые соблюдают robots.txt, просто не сканируют ваш сайт. Это нежелательно, если вы хотите, чтобы они получили доступ к вашим данным для индексирования.

Лучшее решение для дросселирования или подачи статического содержимого ботам.

Не уверен, что это хорошо, потому что они индексируют или что?

Они могут быть индексированием/соскабливанием/воровством. Все равно. Я думаю, что вы хотите отключить обработку своих HTTP-запросов на основе UserAgents. Как это сделать, зависит от вашего веб-сервера и контейнера приложений.

Как указано в других ответах, если бот злонамерен, вам нужно либо найти шаблон UserAgent, либо отправить 403 запрета. Или, если злонамеренные боты динамически меняют строки пользовательского агента, у вас есть еще два варианта:

  • White-List UserAgents - eg. создайте фильтр пользовательского агента, который принимает только определенные пользовательские агенты. Это очень несовершенно.
  • IP-запрет - заголовок http будет содержать IP-адрес источника. Или, если вы получаете DOS'd (атака отказа в обслуживании), тогда у вас есть большие проблемы
+0

Gotta 'не согласен с пунктом 1. Google отлично соблюдает файл robots.txt. – UnkwnTech 2008-11-29 05:11:14

4

Я действительно не думаю, что изменение файла robots.txt поможет, потому что только ХОРОШИЕ БОТЫ соблюдают Это. Все остальные игнорируют его и анализируют ваш контент по своему усмотрению. Лично я использую http://www.codeplex.com/urlrewriter, чтобы избавиться от нежелательных роботов, ответив запрещенным сообщением, если они найдены.

3

Спам-боты не заботятся о файле robots.txt. Вы можете заблокировать их чем-то вроде mod_security (это довольно крутой плагин для Apache). Или вы могли просто игнорировать их.

2

Возможно, вам придется использовать .htaccess, чтобы лишить некоторых ботов винтов с вашими журналами. Смотрите здесь: http://spamhuntress.com/2006/02/13/another-hungry-java-bot/

Я много Java-ботов ползать мой сайт, добавляя

SetEnvIfNoCase User-Agent^Java/1. javabot = yes
User-Agent SetEnvIfNoCase^Java1. javabot = yes
Запрет от env = javabot

сделал остановку.Теперь они получают только 403 один раз, и это все :)

2

Я когда-то работал на клиента, у которого было множество «сравнительных сравнений» ботов, попавших на сайт все время. Проблема заключалась в том, что наши бэкэнд-ресурсы были скудными и стоили денег за транзакцию.

После попытки отбить некоторые из них в течение некоторого времени, но боты просто продолжали изменять свои узнаваемые характеристики. Мы получили следующую стратегию:

Для каждого сеанса на сервере мы определили, был ли пользователь в любой момент нажимал слишком быстро. После заданного количества повторов мы установили флаг isRobot в true и просто уменьшим скорость ответа в этом сеансе, добавив спальные места. Мы никоим образом не сказали пользователю, так как он только начинал новую сессию в этом случае.

Смежные вопросы