Boilerpipe позволяет извлекать текст статьи с веб-страницы, очищая весь беспорядок HTML. Однако, как я могу извлечь заголовок статьи? Существует способ просто использовать заголовок страницы, но иногда он неправильный и содержит ненужные слова (например, «title - sitename»).Извлечь заголовок статьи из HTML (с использованием Boilerpipe)
Другая идея - найти текст между <h1>
и </h1>
, но я все еще думал, что попрошу еще несколько решений.
Да, пожалуйста, только часть извлечения заголовка необходима –
Так что структура html очень важна. Следовательно, веб-сайты имеют разные структуры. Это, безусловно, утомительная работа ... –