2013-09-16 3 views
1

Таким образом, я создал сайт Django для веб-подручных новостей веб-страниц для статей .. Даже если я использую механизировать, я до сих пор они говорили мне:Python Mechanize Ошибка HTTP 403: запрос запрещен в robots.txt

HTTP Error 403: request disallowed by robots.txt 

Я попробовал все, посмотрите на мой код (только часть лома):

br = mechanize.Browser() 
page = br.open(web) 
br.set_handle_robots(False) 
br.set_handle_equiv(False) 
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')] 
    #BeautifulSoup 
htmlcontent = page.read() 
soup = BeautifulSoup(htmlcontent) 

Я попытался тоже использовать де br.open перед set_hande_robots (Flase) и др. Это тоже не сработало.

Любой способ получить этот сайт?

+0

Они запрещены, потому что эти сайты не хотят, чтобы бот доступа к ресурсам. Там могут быть юридические условия. Вы должны держаться подальше от них. –

ответ

4

Вы установка br.set_handle_robots(False) после br.open()

Оно должно быть:

br = mechanize.Browser() 
br.set_handle_robots(False) 
br.set_handle_equiv(False) 
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')] 
page = br.open(web) 
htmlcontent = page.read() 
soup = BeautifulSoup(htmlcontent) 
Смежные вопросы