2012-07-12 2 views
3

Мой вопрос довольно прост: есть способ разобрать html в java на DOM-Document, если в htmlcontent есть теги, подобные этому img-тегу?Parsing html с «закрытыми тегами» в java

<p><img src="..."></p> 

Это Codesnippet, что дает мне SAXException при анализе этих элементов:

DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance(); 
DocumentBuilder db = dbf.newDocumentBuilder(); 

InputStream is = new ByteArrayInputStream(htmlcontent.getBytes()); 
Document dom = db.parse(is); 
is.close(); 

ответ

3

Я не думаю, но jsoup может сделать это. Это не DOM API, но это очень похоже.

+0

отлично работает для меня, спасибо! – billdoor

+0

Не стесняйтесь утверждать ответ – Florent

1

Вы не можете использовать DocumentBuilder, потому что это XML-анализатор.

Но вам нужно HTML-парсер, как:

+0

+1 для openSoruces ссылки –

0

HTML не является XML.

За исключением случаев, когда вы используете XHTML.

Поэтому нет причин, по которым анализатор XML должен анализировать ваш HTML.

Использовать HTML-парсер, например HtmlCleaner.

Смежные вопросы