Скорее всего, сайт блокирует людей от соскабливания их сайтов. Вы можете обмануть их на базовом уровне, включив информацию заголовка вместе с другими материалами. См. Здесь для получения дополнительной информации.
Цитируя: https://docs.python.org/3/howto/urllib2.html#headers
import urllib.parse
import urllib.request
url = 'http://www.someserver.com/cgi-bin/register.cgi'
user_agent = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64)'
values = {'name' : 'Michael Foord',
'location' : 'Northampton',
'language' : 'Python' }
headers = { 'User-Agent' : user_agent }
data = urllib.parse.urlencode(values)
data = data.encode('ascii')
req = urllib.request.Request(url, data, headers)
with urllib.request.urlopen(req) as response:
the_page = response.read()
Есть много причин, почему люди не хотят скрипты, чтобы очистить свои веб-сайты. Для этого требуется пропускная способность. Они не хотят, чтобы люди получали выгоду (с точки зрения денег), создавая борода. Возможно, они не хотят, чтобы вы копировали информацию о своем сайте. Вы можете также думать об этом как о книге. Авторы хотят, чтобы люди читали свои книги, но, возможно, некоторые из них не захотят, чтобы робот сканировал свои книги, чтобы создать копию, или, может быть, робот мог бы ее обобщить.
Вторая часть вашего вопроса в комментарии является неопределенной и широкой, чтобы ответить здесь, поскольку есть слишком много упрямых ответов.
Может быть, сайт блокирует людей от выскабливание, проверяя данные заголовка и все эти вещи. Попробуйте настроить его? – MooingRawr
@MooingRawr: вот и все ... пожалуйста, сделайте это ответом. – steffen
также: кто они стараются держаться подальше? Даже такие люди, как я, которые не получают этого сами, знают, как пользоваться Интернетом ... – steffen