Как избежать запрета при использовании scrapy

-1

Я получаю постоянный запрет с веб-сайта, я установил download_delay = 10 в scrapy, я попробовал пакет fake_user_agent, тогда я попытался реализовать tor и polipo, в соответствии с этим site конфигурация в порядке. Но после того, как я побежал в полчаса снова, мне запретили! Может ли кто-нибудь помочь мне здесь?Как избежать запрета при использовании scrapy

Примечание: scrapy-proxie Я также хочу попробовать, но не могу активировать.

источник

2016-10-06 Mohib

Вам необходимо предоставить дополнительную информацию, например, на каком сайте вы ползать, что вы делаете, когда ползет, и т.д. Если сайт запрещает вам, вы вероятно, делает что-то, что ему не нравится, или что он находит, нарушает его ToS. Без дополнительной информации никто здесь не мог сказать вам, почему вас запрещают. – Rejected

Правильный способ справиться с этим - поговорить с владельцами сайта и спросить их. Если вы нарушаете их ToS, они в пределах своих прав ограничивают ваш доступ. Мы ничего не можем с этим поделать, и, на мой взгляд, мы ничего не должны * помочь вам обойти. –

Я голосую, чтобы закрыть этот вопрос как вне темы, потому что вероятная причина является нарушением ToS сайта, и OP должен сначала поговорить с владельцами сайта, чтобы выяснить, есть ли правильный способ захватить данные из своих сайт. –

Вы должны смотреть на что говорит documentation.

Вот несколько советов, чтобы иметь в виду при работе с этими видами сайтов:

вращают ваш агент пользователя из пула хорошо известными из браузеров (Google вокруг, чтобы получить их список)

отключить куки (см COOKIES_ENABLED), поскольку некоторые сайты могут использовать куки на месте поведения бота

использовать задержки загрузки (2 или выше). См. Настройку DOWNLOAD_DELAY.

Если возможно, используйте кеш Google для извлечения страниц, вместо того, чтобы нажимать на сайты , используйте пул вращающихся IP-адресов. Например, бесплатный проект Tor или платные услуги, такие как ProxyMesh

используют высокораспределенный загрузчик , который внутренне обходит запреты, поэтому вы можете просто сосредоточиться на синтаксическом анализе чистых страниц. Одним из примеров таких загрузчиков является Crawlera

источник

2016-10-06 17:55:45

Действительно спасибо! Можете ли вы дать мне какой-нибудь учебник или примеры проектов о вращении IP, я действительно застрял здесь! – Mohib

[Это] (http://pkmishra.github.io/blog/2013/03/18/how-to-run-scrapy-with-TOR-and-multiple-browser-agents-part-1-mac/) один кажется довольно хорошим. Если это поможет вам, подумайте о принятии ответа. –

Использование задержки на щелчки
Не TOR - все соединения от одного адреса - плохо, вращать прокси после нескольких посещений

И проверить этот пост - web scraping etiquette

источник

2016-10-06 17:48:37

Как избежать запрета при использовании scrapy

ответ

Смежные вопросы