Я хочу вытащить текст из html-файлов для целей индексирования и сделать это как можно быстрее. Вместо того, чтобы создавать что-то с нуля, я хочу посмотреть, как много я могу найти уже для меня.Индексирование текстового содержимого html
В настоящее время я просто обрабатываю вывод html2text, который работает, но между тем, чтобы быть python и пытаться прикрыть текст, я уверен, что скорость может быть улучшена.
Итак, с приоритетом Linux/unix, какие библиотеки (c/C++) лучше всего подходят для такого рода задач?
dupe of http://stackoverflow.com/questions/489522/library-recommendation-c-html-parser и другие (просто поиск !!) –
Я не совсем ищу парсер. Это так же низко, как я хочу. Я ищу рекомендации для простейшего быстрого способа извлечь текст из html. – Named