Я экспериментировал с Иерихонским HTML Parser и Selenium IDE для извлечения текста из определенного места внутри HTML на нескольких страницах.Извлечь текст из определенного места HTML на нескольких страницах
Я не нашел простой пример того, как это сделать, и я не знаю java.
Я хотел бы найти в папке все HTML-страниц в 1-й таблице, четвёртая строка, первый ДИВ любая строка текста:
</table>
<tr class="abc"><td class="xyz"><div align="center">The Text I don't want</div></td></tr>
<tr class="abc"><td class="xyz"><div align="center">The Text I don't want</div></td></tr>
<tr class="abc"><td class="xyz"><div align="center">The Text I don't want</div></td></tr>
<tr class="abc"><td class="xyz"><div align="center">The Text I want</div></td></tr>
</table>
И распечатать выделенный текст в текстовый файл в списке, как это:
The Text I want
Another Text I want
Все исходные файлы хранятся локально и могут содержать плохой HTML, поэтому полагал, что Иерихон может быть лучше для этой цели. Однако я рад узнать какой-либо метод для достижения желаемого результата.