Я хотел бы найти весь текст в правильном html-файле. Пример:Как найти текст в html с помощью regex
<div style="color: red;">text<span>another text</span>another text<img src="some_image"/></div>
Как я могу сделать это в Java?
Я хотел бы найти весь текст в правильном html-файле. Пример:Как найти текст в html с помощью regex
<div style="color: red;">text<span>another text</span>another text<img src="some_image"/></div>
Как я могу сделать это в Java?
Попробуйте Apache Тика http://tika.apache.org/0.7/gettingstarted.html
Пример Использование Тика для .html: How can I use the HTML parser with Apache Tika in Java to extract all HTML tags?
текстом U означает простой текст? – Rinku
Не с регулярным выражением. –
Регулярные выражения обычно считаются плохими идеями для разбора HTML. См. Http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags –