Таким образом, я создал сайт Django для веб-подручных новостей веб-страниц для статей .. Даже если я использую механизировать, я до сих пор они говорили мне:Python Mechanize Ошибка HTTP 403: запрос запрещен в robots.txt
HTTP Error 403: request disallowed by robots.txt
Я попробовал все, посмотрите на мой код (только часть лома):
br = mechanize.Browser()
page = br.open(web)
br.set_handle_robots(False)
br.set_handle_equiv(False)
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]
#BeautifulSoup
htmlcontent = page.read()
soup = BeautifulSoup(htmlcontent)
Я попытался тоже использовать де br.open перед set_hande_robots (Flase) и др. Это тоже не сработало.
Любой способ получить этот сайт?
Они запрещены, потому что эти сайты не хотят, чтобы бот доступа к ресурсам. Там могут быть юридические условия. Вы должны держаться подальше от них. –