2015-08-17 3 views
9

Я создал проект Scrapy с несколькими пауками, чтобы сканировать некоторые веб-сайты. Теперь я хочу использовать TOR для:Scrapy with TOR (Windows)

  1. Скрыть мой ip с обходных серверов;
  2. Свяжите мои запросы с разными ips, имитируя доступ от разных пользователей.

Я прочитал некоторую информацию об этом, например: using tor with scrapy framework, How to connect to https site with Scrapy via Polipo over TOR?

Ответы из этих ссылок не были полезны для меня. Каковы шаги, которые я должен предпринять для правильной работы Scrapy с TOR?

EDIT 1:

Учитывая ответ 1, я начал устанавливать TOR. Когда я пользуюсь Windows, я скачал пакет TOR Expert Bundle (https://www.torproject.org/dist/torbrowser/5.0.1/tor-win32-0.2.6.10.zip) и прочитал главу о том, как настроить TOR как реле (https://www.torproject.org/docs/tor-doc-windows.html.en). К сожалению, информации о том, как это сделать в Windows, мало. Если я распакую загруженный архив и запустил файл Tor \ Tor.exe, ничего не произойдет. Однако в диспетчере задач я вижу, что создается новый процесс. Я не знаю, как лучше всего двигаться дальше.

+1

Что вы уже достигли? В чем дело? Пожалуйста, отредактируйте свой вопрос и объясните это нам, чтобы мы могли помочь. – GHajba

+0

этот проект scrapy на github объясняет, как сменить anonymoulsy: https://github.com/WiliTest/Anonymous-scrapping-Scrapy-Tor-Privoxy-UserAgent –

ответ

3

Подробный шаг за шагом Объяснение здесь http://blog.privatenode.in/torifying-scrapy-project-on-ubuntu/

Основные шаги есть:

  1. установить Tor и Polipo (для Linux это может потребовать, чтобы добавить репозиторий).
  2. Настройте Polipo для разговора с TOR, используя SOCK Connection (см. Ссылку выше).
  3. Создание пользовательского Middleware использовать Tor в качестве HTTP-прокси и случайным образом изменить агента пользователя SCRAPY
  4. подавить предупреждение амортизации сверху, например, написать 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None, вместо 'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware': None,

Что вы Szenario ? Думали ли вы о аренде прокси-серверов?

+1

Спасибо за это шаг за шагом. Я отредактировал свой вопрос (метка EDIT 1), учитывая ваш ответ. О вашем последнем вопросе «Думали ли вы об аренде прокси-серверов?» Почему мне нужно арендовать некоторые прокси-серверы, если я перенаправляю свой трафик с помощью TOR? – supertreta

+0

Прошу прощения, я не убегаю под окнами. Вам не нужно сдавать прокси-серверы, это вариант вашего первого вопроса, чтобы скрыть ваш «реальный» ip (за прокси-сервером) и связать ваши запросы с разными ips (например, с прокси-сервером). – fmp