2016-10-21 4 views
0

Boilerpipe позволяет извлекать текст статьи с веб-страницы, очищая весь беспорядок HTML. Однако, как я могу извлечь заголовок статьи? Существует способ просто использовать заголовок страницы, но иногда он неправильный и содержит ненужные слова (например, «title - sitename»).Извлечь заголовок статьи из HTML (с использованием Boilerpipe)

Другая идея - найти текст между <h1> и </h1>, но я все еще думал, что попрошу еще несколько решений.

ответ

0

Вы пишете веб-гусеничную машину? Я думаю, что сложность заключается в том, что вам нужно знать, где заголовок находится в целом html. Для большинства веб-сайтов у них есть уникальный шаблон для написания html, он должен быть известен до написания искателя.

+0

Да, пожалуйста, только часть извлечения заголовка необходима –

+0

Так что структура html очень важна. Следовательно, веб-сайты имеют разные структуры. Это, безусловно, утомительная работа ... –

Смежные вопросы