0

Я получил эту ошибку, первую из рода в течение нескольких дней по-и- не выскабливание:Mechanize получает 403 ошибки, связанный с файлом robots.txt, но robots.txt блокирует ничего

mechanize._response.httperror_seek_wrapper: HTTP Error 403: request disallowed by robots.txt 

Однако роботы .txt сайта гласит:

User-agent: * 
Disallow: 

Согласно this source, если сайт был закрыт для такого рода доступа, robots.txt будет содержать Disallow: /.

Неужели ошибка все еще означает, что я должен прекратить выскабливание или что есть еще одна проблема?

Должен ли я пытаться успокоить сервер (например, делать запросы менее частыми) или просто обходить ошибку, добавляя заголовки и т. Д.?

И, наконец, учитывая 403, неэтично ли продолжать соскабливание?

ответ

1

Вы могли бы ignore the robots.txt и посмотреть, что произойдет (может быть, не этично, даже для целей тестирования). Если вы все еще получаете 403, они могут блокировать ваш IP, а не добавлять в файл robots.txt.

Вы можете связаться с владельцем сайта и узнать, можете ли вы получить разрешение на переопределение файла robots.txt, если вы чувствуете себя юридически прижатым.

Или, как вы сказали, игнорировать файл robots.txt. Я не могу прокомментировать этические последствия, потому что я не разбираюсь в этой области.

+0

Но сам robots.txt не содержит никаких ограничений. – Tag

+0

Вот почему вы пытаетесь переопределить его один раз (или дважды) и посмотреть, поднимает ли он ошибку 403. Это диагностическая проверка. Если 403 все еще существует после того, как вы обходите файл robots.txt, возможно, они заблокировали ваш IP-адрес. – jarcobi889

+0

Что делать, если я не получу ошибки? (Извините за этот гипотетический разговор, но пока я еще не решил пройти тест.) – Tag

Смежные вопросы