У меня есть скрипт, который сканирует веб-сайт. До сегодняшнего дня он прошел отлично, Однако он не делает этого сейчас.Python запрашивает ошибку 10060
это дает SME следующее сообщение об ошибке:
Connection Aborted Error(10060 ' A connection attempt failed becvause the connected party did not properly respond after a period of time, or established a connection failed because connected host has failed to respond'
Я искал в настройках ответы ANS, но я не могу понять, как это исправить ...
В IE я не использую любой прокси (Соединение -> Lan Настройки-> Proxy = Disabled)
он ломает в этой части кода, somethimes первый запуск, somethimes 2-й .. и так далее
def geturls(functionurl, runtime):
startCrawl = requests.get(functionurl, headers=headers)
mainHtml = BeautifulSoup(startCrawl.content, 'html.parser')
mainItems = mainHtml.find("div",{"id": "js_multiselect_results"})
for tag in mainItems.findAll('a', href=True):
tag['href'] = urlparse.urljoin(url,tag['href'])
if shorturl in tag['href'] and tag['href'] not in visited:
if any(x in tag['href'] for x in keepout):
falseurls.append(tag['href'])
elif tag['href'] in urls:
doubleurls.append(tag['href'])
else:
urlfile.write(tag['href'] + "\n")
urls.append(tag['href'])
totalItemsStart = str(mainHtml.find("span",{"id": "sab_header_results_size"}))
if runtime == 1:
totalnumberofitems[0] = totalItemsStart
totalnumberofitems[0] = strip_tags(totalnumberofitems[0])
return totalnumberofitems
Как я могу это исправить?
Ваш скрипт, вероятно, заблокирован, потому что очевидно, что вы скребок. –
Как это очевидно? Я запрашиваю страницу один раз каждые 5 секунд. И я использую заголовки, чтобы сделать сайт, думаю, что я пользователь – brian
Я не пытался грубить, извините. Однако все ваши запросы будут поступать с одного IP-адреса каждые 5 секунд. Если кто-то наблюдает за журналами сервера или запускает программное обеспечение для примитивного мониторинга, вы четко выделяетесь как выброс и очищающий бот. –