2010-08-06 3 views
1

Я пытался исследовать, как работает solr, когда документы, такие как doc или pdf, отправляются на него. Я хочу знать, могу ли я отправить pdf-файлы в solr, не удалось ли сохранить файл pdf вместе с индексом, созданным после разбора файла pdf?Apache Solr - сами документы хранятся отдельно от индекса?

Спасибо,

-Keshav

ответ

4

Solr (Lucene) не "в конечном итоге сберегать PDF-файл" сам по себе. Однако он может хранить текстовое содержимое PDF, извлеченного из PDF, используя текстовый экстрактор, такой как Tika (если действительно поле отмечено как сохраненное в схеме).

Если вы хотите сохранить PDF-файл целиком, вам нужно будет преобразовать PDF в (например) представление Base64 и сохранить строку base64 как «сохраненное» поле. Поэтому, когда вы обращаетесь к документу, вы конвертируете обратно из Base64 в PDF.

+3

Или сохраните pdf-файл в файловой системе и сохраните его местоположение в поле «Сохранено». –

+0

Mikos, Спасибо за ваш ответ! Вы упомянули, что текстовое содержимое PDF может быть сохранено. Но нужно ли хранить текстовое хранилище для поиска индекса? – Keshav

+1

Не требуется для поиска. Но если вам нужно выделить (фрагменты), тогда вам нужно будет сохранить. – Mikos

Смежные вопросы