Q

Parsing html с «закрытыми тегами» в java

2012-07-12 2 views 3 likes

3

Мой вопрос довольно прост: есть способ разобрать html в java на DOM-Document, если в htmlcontent есть теги, подобные этому img-тегу?Parsing html с «закрытыми тегами» в java

<p><img src="..."></p>

Это Codesnippet, что дает мне SAXException при анализе этих элементов:

DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance(); 
DocumentBuilder db = dbf.newDocumentBuilder(); 

InputStream is = new ByteArrayInputStream(htmlcontent.getBytes()); 
Document dom = db.parse(is); 
is.close();

источник

2012-07-12 billdoor

A

ответ

3

Я не думаю, но jsoup может сделать это. Это не DOM API, но это очень похоже.

источник

2012-07-12 14:47:10 Florent

+0

отлично работает для меня, спасибо! – billdoor

+0

Не стесняйтесь утверждать ответ – Florent

1

Вы не можете использовать DocumentBuilder, потому что это XML-анализатор.

Но вам нужно HTML-парсер, как:

источник

2012-07-12 14:46:53 dash1e

+0

+1 для openSoruces ссылки –

0

HTML не является XML.

За исключением случаев, когда вы используете XHTML.

Поэтому нет причин, по которым анализатор XML должен анализировать ваш HTML.

Использовать HTML-парсер, например HtmlCleaner.

источник

2012-07-12 14:47:12

1

Один из них может помочь:

источник

2012-07-12 15:06:21 Arvik

Смежные вопросы