2010-01-28 3 views
0

Я хочу вытащить текст из html-файлов для целей индексирования и сделать это как можно быстрее. Вместо того, чтобы создавать что-то с нуля, я хочу посмотреть, как много я могу найти уже для меня.Индексирование текстового содержимого html

В настоящее время я просто обрабатываю вывод html2text, который работает, но между тем, чтобы быть python и пытаться прикрыть текст, я уверен, что скорость может быть улучшена.

Итак, с приоритетом Linux/unix, какие библиотеки (c/C++) лучше всего подходят для такого рода задач?

+1

dupe of http://stackoverflow.com/questions/489522/library-recommendation-c-html-parser и другие (просто поиск !!) –

+0

Я не совсем ищу парсер. Это так же низко, как я хочу. Я ищу рекомендации для простейшего быстрого способа извлечь текст из html. – Named

ответ

2

Для извлечения текста вы можете использовать HTML-парсер, например htmlcxx или libxml. Вы также можете использовать любую библиотеку XML после tidying up HTML. Для индексации текста вы можете использовать CLucene.

+0

libxml сделаю. В этом случае Xapian является индексом. – Named

Смежные вопросы