Я заметил на своих трекерах, что боты посещают мой сайт. Должен ли я изменить или изменить файл robots.txt или что-то изменить? Не уверен, что это хорошо, потому что они индексируют или что?Должен ли я избавиться от ботов, посещающих мой сайт?
ответ
Должен ли я изменить или отредактировать файл robots.txt или изменить что-то?
Зависит от бота. Некоторые боты послушно игнорируют robots.txt. У нас была аналогичная проблема 18 месяцев назад с ботом Google AD, потому что наш клиент покупал Soooo много объявлений. Боты Google AD (как задокументировано) игнорируют исключения (*), но прислушиваются к явным игнорированиям.
Помните, что боты, которые соблюдают robots.txt, просто не сканируют ваш сайт. Это нежелательно, если вы хотите, чтобы они получили доступ к вашим данным для индексирования.
Лучшее решение для дросселирования или подачи статического содержимого ботам.
Не уверен, что это хорошо, потому что они индексируют или что?
Они могут быть индексированием/соскабливанием/воровством. Все равно. Я думаю, что вы хотите отключить обработку своих HTTP-запросов на основе UserAgents. Как это сделать, зависит от вашего веб-сервера и контейнера приложений.
Как указано в других ответах, если бот злонамерен, вам нужно либо найти шаблон UserAgent, либо отправить 403 запрета. Или, если злонамеренные боты динамически меняют строки пользовательского агента, у вас есть еще два варианта:
- White-List UserAgents - eg. создайте фильтр пользовательского агента, который принимает только определенные пользовательские агенты. Это очень несовершенно.
- IP-запрет - заголовок http будет содержать IP-адрес источника. Или, если вы получаете DOS'd (атака отказа в обслуживании), тогда у вас есть большие проблемы
Я действительно не думаю, что изменение файла robots.txt поможет, потому что только ХОРОШИЕ БОТЫ соблюдают Это. Все остальные игнорируют его и анализируют ваш контент по своему усмотрению. Лично я использую http://www.codeplex.com/urlrewriter, чтобы избавиться от нежелательных роботов, ответив запрещенным сообщением, если они найдены.
Спам-боты не заботятся о файле robots.txt. Вы можете заблокировать их чем-то вроде mod_security (это довольно крутой плагин для Apache). Или вы могли просто игнорировать их.
Возможно, вам придется использовать .htaccess, чтобы лишить некоторых ботов винтов с вашими журналами. Смотрите здесь: http://spamhuntress.com/2006/02/13/another-hungry-java-bot/
Я много Java-ботов ползать мой сайт, добавляя
SetEnvIfNoCase User-Agent^Java/1. javabot = yes
User-Agent SetEnvIfNoCase^Java1. javabot = yes
Запрет от env = javabot
сделал остановку.Теперь они получают только 403 один раз, и это все :)
Я когда-то работал на клиента, у которого было множество «сравнительных сравнений» ботов, попавших на сайт все время. Проблема заключалась в том, что наши бэкэнд-ресурсы были скудными и стоили денег за транзакцию.
После попытки отбить некоторые из них в течение некоторого времени, но боты просто продолжали изменять свои узнаваемые характеристики. Мы получили следующую стратегию:
Для каждого сеанса на сервере мы определили, был ли пользователь в любой момент нажимал слишком быстро. После заданного количества повторов мы установили флаг isRobot в true и просто уменьшим скорость ответа в этом сеансе, добавив спальные места. Мы никоим образом не сказали пользователю, так как он только начинал новую сессию в этом случае.
- 1. Должен ли я избавиться от операторов продолжения
- 2. Отключение запроса «Запомнить мой пароль» для пользователей, посещающих сайт
- 3. Как заблокировать людей, посещающих мой сайт на VPS в PHP?
- 4. Если я в безопасности от CSRF, я могу избавиться от спам-ботов?
- 5. Где я должен bootstraperize мой веб-сайт?
- 6. Должен ли я избавиться от кластеризованных индексов на столбцах Guid
- 7. Был ли мой сайт взломан?
- 8. Favicon Должен ли мой сайт быть размещен?
- 9. Drupal: как я могу читать ip-адреса людей, посещающих мой сайт Drupal?
- 10. Как определить демографию пользователей, посещающих ваш сайт?
- 11. Могу ли я избавиться от «мута» здесь?
- 12. Могу ли я избавиться от UnhandledAlertError?
- 13. Мой сайт - сайт видеообработки. Должен ли я ДОЛЖЕН размещаться на хостинге ffmpeg или я могу использовать обычный хостинг?
- 14. Должен ли я закодировать мой Json от backend до AngularJs?
- 15. Какую структуру данных я должен использовать, чтобы избавиться от []?
- 16. Как я должен правильно избавиться от ветвей TFS?
- 17. Как я могу вести журнал всех ботов (google, yahoo и т. Д.) На мой сайт
- 18. Должен ли я gitignore мой .gitignore?
- 19. Elastic4s зависимость от org.elasticsearch, могу ли я избавиться от нее?
- 20. Многоязычный сайт - как обнаружить ботов/пауков?
- 21. Является ли мой сайт медленным?
- 22. Как получить IP-адрес пользователей, посещающих мой localsite
- 23. Когда я могу избавиться от своего DataContext?
- 24. Могу ли я избавиться от этого ужасного блокирующего кода?
- 25. Могу ли я узнать, зарегистрирован ли пользователь через мой сайт?
- 26. Могу ли я избавиться от SVN в моем проекте Xcode?
- 27. Я хочу, чтобы функция временно блокировала мой сайт от доступа?
- 28. Должен ли я показывать отдельную версию моего сайта GWT, управляемого Ajax, для поиска ботов?
- 29. Как проверить мой антиспам-код на ботов?
- 30. Должен ли я отказаться от полиморфной ассоциации?
Gotta 'не согласен с пунктом 1. Google отлично соблюдает файл robots.txt. – UnkwnTech 2008-11-29 05:11:14