2013-09-12 1 views
11

Я не буду заинтересован в местах общественных облицовочных (ничего за вход/аутентификации), которые имеют такие вещи, как:Веб-сайты, которые особенно сложны для ползания и царапины?

  • Высокого использование внутреннего 301 и 302 перенаправляет
  • Anti-скребковые мер (но не запрещающие сканеры через robots.txt)
  • несемантических, или недействительный разметки
  • Содержимое загружается через AJAX в виде onclicks или бесконечной прокруткой
  • Множество параметров в адресах
  • Канонические проблемы
  • Соединительная внутренняя структура ссылок
  • и все остальное, что в целом делает сканирование веб-сайта головной болью!

Я построил сканер/паук, который выполняет широкий спектр анализов на веб-сайте, и я нахожусь в поисках сайтов, которые будут бороться.

+0

ли вам после того, как список сложных сайтов или методов для очистки сложных сайтов? Я не уверен, что запрос здесь. – halfer

+0

Я после списка сложных сайтов. Чтобы дать вам некоторый опыт, я создал искатель/паук, который выполняет целый ряд анализов на веб-сайте, и я нахожусь в поиске сайтов, которые заставят его бороться. –

+0

Ah righto. Я бы сказал, что это, вероятно, вне темы, поскольку это запрос на внешние ресурсы; однако, поскольку это интересный вопрос, я не буду голосовать за закрытие. Мне должно быть интересно узнать, что происходит, хотя я сам работаю над самим проектом. – halfer

ответ

3

Вот некоторые из них:

  • Содержимое загружается через AJAX в виде onclicks или бесконечной прокруткой
    • pinterest
    • comments in such a page
      Это китайская товарная страница и ее комментарии загружается AJAX, который запускается путем прокрутки полосы прокрутки в браузере или в зависимости от высоты вашего браузера. Я должен использовать PhantomJS и xvfb для запуска таких действий.
  • Anti-соскоб меры (но не запрещая сканеры через robots.txt)
    • amazon next page
      Я подполз амазонка сайта в Китае, и когда я хочу, чтобы сканировать страницу рядом в таких страницах, он может изменить запросов в результате, что вы не могли получить реальный следующий страницы
    • stackoverflow
      Он имеет предел частоты посещения. Несколько дней назад я хотел получить все теги в stackoverflow и установить частоту посещения паука до 10, но я был предупрежден с помощью stackoverflow ...... Вот screen shot. После этого я должен использовать прокси для обхода stackoverflow.
  • и все остальное, что обычно делает ползать веб-сайт головной боли
    • yihaodian
      Это китайский сайт электронной коммерции, и когда вы посещаете его в браузере, он будет показывать ваше местоположение и предложит некоторые товары в зависимости от вашего местоположения.
    • и т. Д.
      Существует много сайтов, как указано выше, которые будут предлагать различное содержимое в соответствии с вашим местоположением. Когда вы просматриваете такие сайты, то, что вы получаете, не совпадает с тем, что вы видите в браузере.Часто при настройке запроса через паук часто требуется настроить cookie.

В прошлом году я обнаружил сайт, который необходимый запрос HTTP заголовки и печенье при испускании запросы, но я не помню, что сайт ....

+0

Проблема переполнения стека _may_ была решена путем задержки между каждым запросом. Если вы делаете большое количество запросов в секунду на любой сайт, вы можете ожидать, что будете заблокированы ':)'. – halfer

Смежные вопросы