2015-04-21 4 views
0

Я хочу разобрать (многие) каналы rss/atom/rdf, используя Tika 1.7 (работает очень хорошо, но не идеально) и загружать данные в Solr 5.1.0. автоматически.Интеграция Tika 1.7 в Solr 5.1.0

Я могу видеть данные в моем терминале - выглядит довольно красиво, каждый элемент проанализирован: название, ссылка, описание и т. Д. - но я не знаю, как автоматически загружать данные в Solr.

Любая помощь приветствуется, С наилучшими пожеланиями, Christian

ответ

1

Там есть модуль вно называется «SolrCell», который представляет собой библиотеку извлечения содержимого. Это работает точно так, как вы хотите, и использует Tika за кулисами, для извлечения текста и метаданных.

Более подробная информация здесь: https://cwiki.apache.org/confluence/display/solr/Uploading+Data+with+Solr+Cell+using+Apache+Tika

+0

Привет, дело в том, что мне кажется, что «SolrCell» только разобрать PDF и HTML файлы. Мне нужно разобрать файлы фида (rss/atom/rdf и другие файлы типа xml), и он, похоже, не работает ... Мне удалось выровнять вывод синтаксического анализа в терминале в Tika 1.8, но мне нужно захватить вывод ... возможно, в файле xml, который я позже добавлю в Solr, используя curl ..., пожалуйста, сообщите – user3260152

+0

SolrCell делает то, что делает Тика. Хотя я не помню весь список поддерживаемых форматов, это не ограничивается этими 2 ... Есть еще много – Andrea

+0

, если кто-нибудь может показать мне, как загружать rss/atom/rdf-каналы в solr, используя SolrCell - который Я пробовал, но провалился - было бы здорово! Пожалуйста помоги! – user3260152

Смежные вопросы