2013-06-30 3 views
0

Я не совсем уверен, подходит ли этот форум для отправки моего вопроса. Я анализирую журналы веб-сервера как в форматах журналов Apache, так и в IIS. Я хочу найти доказательства для автоматического просмотра (например, веб-роботы, пауки, боты и т. Д.). Я использовал python robot-detection 0.2.8 для обнаружения роботов в моих файлах журналов. Во всяком случае, могут быть другие роботы (автоматические программы), которые прошли через веб-сайт, но обнаружение робота не может идентифицировать.Свидетельства для автоматического просмотра - Анализ файла журнала

  1. Так есть ли какие-либо конкретные подсказки, которые можно найти в файлах журналов (что человеческие пользователи не выполняют, а программное обеспечение выполняет действия и т. Д.)?
  2. Выполняют ли они определенный шаблон навигации?
  3. Я видел несколько запросов для favicon.ico? Это подразумевает, что это автоматический просмотр ?.

Я нашел this статью с некоторыми ценными точками.

ответ

1

В статье о том, как идентифицировать роботов, есть хорошая информация. Другие вещи, которые вы могли бы подумать.

  • Если вы видите запрос на HTML-страницу, но за ней не следуют запросы на изображения или файлы сценариев, используемые этой страницей, очень вероятно, что запрос пришел от искателя. Если вы видите много из тех же IP-адресов, это почти наверняка сканер. Это может быть браузер Lynx (только текст), но скорее это искатель.
  • Очень легко обнаружить гусеничный аппарат, который быстро сканирует весь ваш сайт. Но некоторые сканеры идут медленнее, ожидая 5 минут или более между запросами страницы. Если вы видите несколько запросов с одного и того же IP-адреса, распространяемых со временем, но с очень регулярными интервалами, это, вероятно, искатель.
  • Повторные записи 403 (несанкционированные) в журнале с того же IP-адреса. Редко, что человек будет страдать более чем несколькими 403 ошибками, прежде чем сдаться. Неискушенный искатель слепо попробует URL-адреса на сайте, даже если он получит десятки 403-х.
  • Повторный 404 с того же IP-адреса. Опять же, человек будет сдаваться после небольшого количества 404-х. Гусеница будет слепо нажимать ... «Я знаю, что здесь есть хороший URL-адрес где-то».
  • Строка пользовательского агента, которая не является одной из основных строк операторов браузера. Если строка user-agent не похожа на строку пользовательского агента браузера, это, вероятно, бот. Обратите внимание, что обратное неверно; многие боты задают строку пользовательского агента известной строке пользовательского агента браузера.
+0

Большое спасибо! Я анализирую некоторые файлы журналов, и я опубликую интересные шаблоны, которые я нахожу :) –

Смежные вопросы