Я пытаюсь извлечь текстовое содержимое html-файла, сгенерированного с помощью некоторого инструмента. Я не могу использовать обычный саксофон или синтаксический анализатор, потому что html неправильно сформирован.parsing html report file
Так я попытался с помощью HTMLparser http://htmlparser.sourceforge.net/
Теперь, как я могу извлечь узел я требуемое?
Я использовал этот следующий код, но он не читает текстовое содержимое узла. Он просто печатает tds с его attibute.How я могу получить тело узлов?
td colspan="2"
td valign="top" class="titleText"
Я хочу, чтобы извлечь тело которого имеет номер и символ%
String inputHTML = readFileAsString(filePath);
Parser parser = new Parser();
parser.setInputHTML(inputHTML);
parser.setEncoding("UTF-8");
NodeList nl = parser.parse(null);
NodeList tds = nl.extractAllNodesThatMatch(new TagNameFilter("td"),true);
for(int i= 0; i < tds.size(); i++) {
Node node = tds.elementAt(i);
System.out.println(node.getText());
}
Домашний анализатор может легко извлечь –
Он дает исключение, поскольку html не является корректным. Некоторые закрывающие теги отсутствуют – user93796
Это не проблема, dom может анализировать, если теги не закрыты также, если не приветствуются, также нет проблем с выбором данные –