2017-02-21 2 views
0

Я пытаюсь прочитать .html-файл с помощью DOM-парсера, но он дает мне следующее исключение при разборе.HTML Parsing Exception в java-коде org.xml.sax.SAXParseException

[Fatal Error] form3.html:559:133: The element type "font" must be terminated by the matching end-tag "</font>". 
org.xml.sax.SAXParseException; systemId: file:/home/puja/Dnyaneshwar/WCD_14_02_17/FileConverter/resources/form3.html; lineNumber: 559; columnNumber: 133; The element type "font" must be terminated by the matching end-tag "</font>". 
    at com.sun.org.apache.xerces.internal.parsers.DOMParser.parse(DOMParser.java:257) 
    at com.sun.org.apache.xerces.internal.jaxp.DocumentBuilderImpl.parse(DocumentBuilderImpl.java:347) 
    at javax.xml.parsers.DocumentBuilder.parse(DocumentBuilder.java:205) 
    at DomConverter.main(DomConverter.java:25) 
+1

Ошибка ясно у вас есть открытый '' тег без закрытых '' попытайтесь исправить его –

+0

На самом деле, я преобразовал файл документа в HTML по Libre office. Здесь я решил много вопросов, как описано выше, вручную отредактировав файл, но этот файл настолько большой. Так можно ли отключить такую ​​проверку? – Dnyanesh

ответ

1

Вы не используете синтаксический анализатор XML для синтаксического анализа HTML-документа даже в документе xhtml.

Вы можете использовать html-парсер, например jsoup.