2014-12-10 3 views
0

Я использую Python Beautiful Soup для веб-сайта Scrapping. Моя программа использует разные URL-адреса веб-сайта более тысячи раз. Я не хочу, чтобы меня запретили. В качестве первого шага я хотел бы представить IPmasking в моем проекте. Есть ли какой-либо способ ударить разные URL-адреса веб-сайта из пула вращающихся IP-адресов с помощью модулей Python, таких как ipaddress, socket и т. Д.?IP маскирование с Python

+2

Звучит подозрительно злонамеренно/нелегально/плохо. –

+0

Нет Брендана, у меня есть только хорошее намерение, вроде «голода за знание», и я просто разбираю цену и детали о продуктах, чтобы сделать сравнение. – ManikandanV

+1

Я дам вам пользу от сомнений, но если у вас действительно есть хорошие намерения: если сайт запрещает вам, ** не делайте этого так. Вы подчиняетесь их условиям и не должны пытаться * обходить их. Если вы законно отправляете тысячи запросов на веб-сайт, попробуйте связаться с ними. –

ответ

1

Проблема заключается в вашем общедоступном IP-адресе. То, что вы можете сделать, это использовать список прокси и повернуть их.

+0

Я могу получить список прокси-серверов, но как я могу использовать его, чтобы каждый раз ударять URL-адрес с разными IP-адресами? – ManikandanV

+0

Независимо от того, какой инструмент вы используете, чтобы http-запросы (urllib, запросы, ...) должны иметь поддержку прокси. Проверьте документацию используемого инструмента. Кроме того, если вы собираетесь делать обход/очистку в широком масштабе, подумайте об использовании фреймворка, такого как scrapy. – rmarques

+0

Я уже начал Pycon Scrapy Framework. У меня есть только http://doc.scrapy.org/en/latest/topics/practices.html#bans в области терапии. Я искал, но didi не получил лучшего документа. – ManikandanV

Смежные вопросы