Я хочу извлечь текстовые блоки с HTML-страницы, и для этого я использую котел. Он отлично работает для одного текста на странице, но некоторые страницы, такие как блоги, имеют несколько текстов на странице.Библиотеки Java для извлечения текстовых блоков из HTML-страниц
Я хочу извлечь все тексты, но идентифицировать их как отдельный текст, а не только один.
Существует некоторая библиотека, которая может это сделать?
EDIT: Я использую Jsoup для синтаксического анализа HTML, но я не хочу разбираться, но на страницах можно извлечь информацию, например, сотрубой. Я хочу проверить другой подобный инструмент.
Просьба предоставить более подробную информацию, какой экстрактор вы используете? Вы пытались использовать ArticleExtractor? Я попытался использовать ArticleExtractor для извлечения содержимого сообщения stackoverflow, и он извлек весь текст для меня? нам было бы лучше отлаживать, если вы предоставите некоторый пример кода. –
@ rao_555 Весь текст в виде текста или нескольких текстов? –