2013-04-02 1 views
5

Я ищу качественный анализатор HTML-данных HTML в Python. Это не должно стремиться быстро, но я бы хотел, чтобы он поддерживал как можно больше the spec, включая itemref.Какой синтаксический анализатор Microdata следует использовать в Python

Вот что я нашел до сих пор:

Вы использовали любой из этих библиотек? В чем были плюсы и минусы?

Мне также интересно разобрать плохо отформатированные HTML-документы. Вы нашли парсер Microdata, который обрабатывает беспорядочный ввод или вы запускаете ввод через что-то вроде BeautifulSoup?

ответ

4

Какой формат вы хотите обработать Microdata?

https://github.com/RDFLib/pymicrodata будет разбираться с RDF.

Если вы хотите использовать JSON, вы должны использовать https://github.com/edsu/microdata, который недавно получил некоторое внимание и должен быть более совместим со спецификацией.

https://pypi.python.org/pypi/pelican-microdata/0.1 выглядит как способ генерировать Микроданные для конкретного генератора статического сайта, поэтому я не думаю, что это поможет в синтаксическом анализе.

Я не знаю, насколько толерантен к плохо отформатированному HTML одному из указанных выше парсеров. Если вы знаете о плохо отформатированной разметке на дикой природе, использующей Microdata, мне было бы интересно узнать, насколько хорошо обработчики Ruby обрабатывают эти случаи.

+0

Либо RDF JSON являются приемлемым выходом. Пока я могу перебирать значения свойств элемента. В конце концов мне может быть интересно получить вывод как JSON-LD, но, вероятно, примерно такой же объем работы для создания этого из JSON или RDF. –

+1

Я закончил использовать парсер Эд Саммерса. Он обработал все, что я бросил на него до сих пор. Благодаря! –

Смежные вопросы