2009-11-26 3 views
0

Я использовал Кобру до сих пор из-за того, насколько это было легко, но, к сожалению, у нее была проблема с несколькими тестовыми случаями. Кто-нибудь предлагает испытанную библиотеку?Любые хорошие парсеры Java HTML?

Я пробовал использовать Cobra в одном и HTMLCleaner без везения.

+0

Судя по вашему последнему вопросу, проблема заключается не в «оценщике XPath». Вы использовали 'XPathFactory.newInstance()', который создает оценщик Java, который работает на любом документе XML, загруженном в DOM-модель (в качестве экземпляра 'Document'). Сам CORBA не является оценщиком XPath - это парсер HTML, который создает «Документ», и в этом случае он сделал это неправильно. Так что вы действительно хотите, это «хороший Java-парсер Java», а не «хороший оценщик Java XPath». –

+0

К сожалению ... извините. Я пересмотрел свой вопрос ... Я просто схожу с ума со всем HTML перед глазами ... – Legend

+0

Я уверен, что этот же вопрос был на SO ранее на этой неделе ... – DisgruntledGoat

ответ

1

Mozilla HTML Parser выглядит довольно интересно. По определению, он должен быть таким же хорошим, как и сам движок Gecko, который, вероятно, будет отвечать вашим потребностям.

1

Взгляните на Saxon (нет, я никак не связан с продуктом, просто довольный пользователь).

+0

Спасибо. Просто понял, что я задал неправильный вопрос ... – Legend

+0

Saxon - это потрясающая реализация XSLT 2.0 и XQuery, но она не анализирует HTML. –

+0

@Pavel - оригинальный вопрос не упоминается HTML –

4

TagSoup действительно замечательный при работе с дрянным HTML/XHTML.

JerichoNekoHTML) также хороши для разбора недействительного HTML.

TagSoup and Jericho: проверено. NekoHTML: отзывы от надежного источника.

+0

+1 для NekoHTML – flybywire

1

[Ответ на название - общий вопрос и комментарии не consistsent]

JTidy (http://jtidy.sourceforge.net/) является портом HTMLTidy Дэйва Раггетт в. Это очень полезно, хотя я думаю, что развитие, возможно, замедлилось/прекратилось.

1

Я предлагаю Validator.nu's parser, основанный на алгоритме синтаксического анализа HTML5. (Mozilla в настоящее время находится в процессе замены своего собственного парсера HTML этим.)

Смежные вопросы