Утилита GUI Apache Tika предоставляет возможность получения основного контента (кроме текста форматирования и структурированного текста) данного документа или URL-адреса. Я просто хочу знать, какой метод отвечает за извлечение основного содержимого документа/url. Чтобы я мог включить этот метод в свою программу. Также, используют ли они какой-либо эвристический алгоритм при извлечении данных из HTML-страниц. Потому что иногда в извлеченном контенте я не могу видеть рекламу.Tika - получение основного содержимого из документов
UPDATE: я узнал, что BoilerPipeContentHandler отвечает за него.
Предоставлено решение usin-котла по указанному ниже вопросу. http://stackoverflow.com/questions/42589076/apache-tika-how-to-extract-html-body-with-out-header-and-footer-content –