На первом этапе html5lib
учебник Я вижу довольно запутанное поведение.html5lib возвращает <None>
docs говорит:
import html5lib
f = open("mydocument.html")
doc = html5lib.parse(f)
Это вернет дерево в формате пользовательского "simpletree".
В качестве файла у меня есть нормальный html-документ. Но в моем случае это:
<None>
>>> doc is None
False
Я считаю, что это не нормально, но я понятия не имею, что происходит.
редактировать
Если я вызываю read
метод на открытом файл он возвращает файл в виде строки:
f = open("mydocument.html")
f.read()
# returns string with html
И после того, как doc = html5lib.parse(f)
, f.read()
возвращает пустую строку, как файл файл был уже читать.
mydocument.html содержит ...? –
, конечно, это html-файл, скопированный с страницы входа redmine =), и я использую полный путь, как '/ home/user/file.html' – I159