Python Mechanize Ошибка HTTP 403: запрос запрещен в robots.txt

Таким образом, я создал сайт Django для веб-подручных новостей веб-страниц для статей .. Даже если я использую механизировать, я до сих пор они говорили мне:Python Mechanize Ошибка HTTP 403: запрос запрещен в robots.txt

HTTP Error 403: request disallowed by robots.txt

Я попробовал все, посмотрите на мой код (только часть лома):

br = mechanize.Browser() 
page = br.open(web) 
br.set_handle_robots(False) 
br.set_handle_equiv(False) 
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')] 
    #BeautifulSoup 
htmlcontent = page.read() 
soup = BeautifulSoup(htmlcontent)

Я попытался тоже использовать де br.open перед set_hande_robots (Flase) и др. Это тоже не сработало.

Любой способ получить этот сайт?

источник

2013-09-16 Julian Slonim

Они запрещены, потому что эти сайты не хотят, чтобы бот доступа к ресурсам. Там могут быть юридические условия. Вы должны держаться подальше от них. –

Вы установка br.set_handle_robots(False) после br.open()

Оно должно быть:

br = mechanize.Browser() 
br.set_handle_robots(False) 
br.set_handle_equiv(False) 
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')] 
page = br.open(web) 
htmlcontent = page.read() 
soup = BeautifulSoup(htmlcontent)

источник

2014-01-19 20:09:03 Crypto

Python Mechanize Ошибка HTTP 403: запрос запрещен в robots.txt

ответ

Смежные вопросы