2016-10-06 3 views
-1

Я получаю постоянный запрет с веб-сайта, я установил download_delay = 10 в scrapy, я попробовал пакет fake_user_agent, тогда я попытался реализовать tor и polipo, в соответствии с этим site конфигурация в порядке. Но после того, как я побежал в полчаса снова, мне запретили! Может ли кто-нибудь помочь мне здесь?Как избежать запрета при использовании scrapy

Примечание: scrapy-proxie Я также хочу попробовать, но не могу активировать.

+0

Вам необходимо предоставить дополнительную информацию, например, на каком сайте вы ползать, что вы делаете, когда ползет, и т.д. Если сайт запрещает вам, вы вероятно, делает что-то, что ему не нравится, или что он находит, нарушает его ToS. Без дополнительной информации никто здесь не мог сказать вам, почему вас запрещают. – Rejected

+0

Правильный способ справиться с этим - поговорить с владельцами сайта и спросить их. Если вы нарушаете их ToS, они в пределах своих прав ограничивают ваш доступ. Мы ничего не можем с этим поделать, и, на мой взгляд, мы ничего не должны * помочь вам обойти. –

+0

Я голосую, чтобы закрыть этот вопрос как вне темы, потому что вероятная причина является нарушением ToS сайта, и OP должен сначала поговорить с владельцами сайта, чтобы выяснить, есть ли правильный способ захватить данные из своих сайт. –

ответ

2

Вы должны смотреть на что говорит documentation.

Вот несколько советов, чтобы иметь в виду при работе с этими видами сайтов:

  • вращают ваш агент пользователя из пула хорошо известными из браузеров (Google вокруг, чтобы получить их список)

  • отключить куки (см COOKIES_ENABLED), поскольку некоторые сайты могут использовать куки на месте поведения бота

  • использовать задержки загрузки (2 или выше). См. Настройку DOWNLOAD_DELAY.
  • Если возможно, используйте кеш Google для извлечения страниц, вместо того, чтобы нажимать на сайты , используйте пул вращающихся IP-адресов. Например, бесплатный проект Tor или платные услуги, такие как ProxyMesh
  • используют высокораспределенный загрузчик , который внутренне обходит запреты, поэтому вы можете просто сосредоточиться на синтаксическом анализе чистых страниц. Одним из примеров таких загрузчиков является Crawlera
+0

Действительно спасибо! Можете ли вы дать мне какой-нибудь учебник или примеры проектов о вращении IP, я действительно застрял здесь! – Mohib

+0

[Это] (http://pkmishra.github.io/blog/2013/03/18/how-to-run-scrapy-with-TOR-and-multiple-browser-agents-part-1-mac/) один кажется довольно хорошим. Если это поможет вам, подумайте о принятии ответа. –

0
  1. Использование задержки на щелчки
  2. Не TOR - все соединения от одного адреса - плохо, вращать прокси после нескольких посещений

И проверить этот пост - web scraping etiquette

Смежные вопросы