Я ищу качественный анализатор HTML-данных HTML в Python. Это не должно стремиться быстро, но я бы хотел, чтобы он поддерживал как можно больше the spec, включая itemref
.Какой синтаксический анализатор Microdata следует использовать в Python
Вот что я нашел до сих пор:
- https://github.com/edsu/microdata
- https://github.com/RDFLib/pymicrodata
- https://pypi.python.org/pypi/pelican-microdata/0.1
Вы использовали любой из этих библиотек? В чем были плюсы и минусы?
Мне также интересно разобрать плохо отформатированные HTML-документы. Вы нашли парсер Microdata, который обрабатывает беспорядочный ввод или вы запускаете ввод через что-то вроде BeautifulSoup?
Либо RDF JSON являются приемлемым выходом. Пока я могу перебирать значения свойств элемента. В конце концов мне может быть интересно получить вывод как JSON-LD, но, вероятно, примерно такой же объем работы для создания этого из JSON или RDF. –
Я закончил использовать парсер Эд Саммерса. Он обработал все, что я бросил на него до сих пор. Благодаря! –