2010-05-05 2 views
3

Я использую питона библиотеки LXML для разбора HTML-страниц:Настройка времени ожидания для синтаксического разбора веб-страниц с помощью питона LXML

import lxml.html 

# this might run indefinitely 
page = lxml.html.parse('http://stackoverflow.com/') 

Есть ли способ, чтобы установить тайм-аут для разбора?

ответ

1

В качестве открывающего устройства используется urllib.urlopen, но самый простой способ сделать это - просто изменить тайм-аут по умолчанию для обработчика сокета.

import socket 
timeout = 10 
socket.setdefaulttimeout(timeout) 

Конечно, это быстрое и грязное решение.

Смежные вопросы