Apache Solr - сами документы хранятся отдельно от индекса?

Я пытался исследовать, как работает solr, когда документы, такие как doc или pdf, отправляются на него. Я хочу знать, могу ли я отправить pdf-файлы в solr, не удалось ли сохранить файл pdf вместе с индексом, созданным после разбора файла pdf?Apache Solr - сами документы хранятся отдельно от индекса?

Спасибо,

-Keshav

источник

2010-08-06 Keshav

Solr (Lucene) не "в конечном итоге сберегать PDF-файл" сам по себе. Однако он может хранить текстовое содержимое PDF, извлеченного из PDF, используя текстовый экстрактор, такой как Tika (если действительно поле отмечено как сохраненное в схеме).

Если вы хотите сохранить PDF-файл целиком, вам нужно будет преобразовать PDF в (например) представление Base64 и сохранить строку base64 как «сохраненное» поле. Поэтому, когда вы обращаетесь к документу, вы конвертируете обратно из Base64 в PDF.

источник

2010-08-06 18:27:02 Mikos

Или сохраните pdf-файл в файловой системе и сохраните его местоположение в поле «Сохранено». –

Mikos, Спасибо за ваш ответ! Вы упомянули, что текстовое содержимое PDF может быть сохранено. Но нужно ли хранить текстовое хранилище для поиска индекса? – Keshav

Не требуется для поиска. Но если вам нужно выделить (фрагменты), тогда вам нужно будет сохранить. – Mikos

Apache Solr - сами документы хранятся отдельно от индекса?

ответ

Смежные вопросы