Любые хорошие парсеры Java HTML?

Я использовал Кобру до сих пор из-за того, насколько это было легко, но, к сожалению, у нее была проблема с несколькими тестовыми случаями. Кто-нибудь предлагает испытанную библиотеку?Любые хорошие парсеры Java HTML?

Я пробовал использовать Cobra в одном и HTMLCleaner без везения.

источник

2009-11-26 Legend

Судя по вашему последнему вопросу, проблема заключается не в «оценщике XPath». Вы использовали 'XPathFactory.newInstance()', который создает оценщик Java, который работает на любом документе XML, загруженном в DOM-модель (в качестве экземпляра 'Document'). Сам CORBA не является оценщиком XPath - это парсер HTML, который создает «Документ», и в этом случае он сделал это неправильно. Так что вы действительно хотите, это «хороший Java-парсер Java», а не «хороший оценщик Java XPath». –

К сожалению ... извините. Я пересмотрел свой вопрос ... Я просто схожу с ума со всем HTML перед глазами ... – Legend

Я уверен, что этот же вопрос был на SO ранее на этой неделе ... – DisgruntledGoat

Mozilla HTML Parser выглядит довольно интересно. По определению, он должен быть таким же хорошим, как и сам движок Gecko, который, вероятно, будет отвечать вашим потребностям.

источник

2009-11-27 00:11:07

Взгляните на Saxon (нет, я никак не связан с продуктом, просто довольный пользователь).

источник

2009-11-26 23:57:03

Спасибо. Просто понял, что я задал неправильный вопрос ... – Legend

Saxon - это потрясающая реализация XSLT 2.0 и XQuery, но она не анализирует HTML. –

@Pavel - оригинальный вопрос не упоминается HTML –

TagSoup действительно замечательный при работе с дрянным HTML/XHTML.

Jericho (и NekoHTML) также хороши для разбора недействительного HTML.

TagSoup and Jericho: проверено. NekoHTML: отзывы от надежного источника.

источник

2009-11-27 00:53:33

+1 для NekoHTML – flybywire

[Ответ на название - общий вопрос и комментарии не consistsent]

JTidy (http://jtidy.sourceforge.net/) является портом HTMLTidy Дэйва Раггетт в. Это очень полезно, хотя я думаю, что развитие, возможно, замедлилось/прекратилось.

источник

2009-11-28 06:47:15

Я предлагаю Validator.nu's parser, основанный на алгоритме синтаксического анализа HTML5. (Mozilla в настоящее время находится в процессе замены своего собственного парсера HTML этим.)

источник

2009-11-28 13:51:31 Ms2ger

Любые хорошие парсеры Java HTML?

ответ

Смежные вопросы