2013-03-19 2 views
2

Я хотел индексировать текстовые файлы. После долгих поисков я узнал об Apache tika. Теперь на некоторых сайтах, где я изучал Apache tika, я узнал, что Apache tika преобразует текст в формат XML, а затем отправляет его в solr. Но при преобразовании он создает только один пример тега ....... Теперь текстовым файлом, который я хочу индексировать, является файл доступа локального хоста tomcat. Этот файл находится в ГБ. Я не могу сохранить его и один индекс. Я хочу, чтобы каждая строка имела идентификатор строки ....... Так что я могу легко получить соответствующую строку.Как индексировать текстовые файлы с помощью apache solr

Можно ли это сделать в Apache Tika?

ответ

3

Solr с Tika поддерживает извлечение данных из нескольких форматов файлов.
Полный список поддерживаемых форматов файлов можно найти @link

Вы можете предоставить в качестве входных данных любой из вышеперечисленных форматов файлов и Тика будут иметь возможность автоопределение формата файла и извлечения текста из файлов и предоставить его Solr для индексирования.

Редактировать: -
Tika не преобразовывает текстовый файл в XML, прежде чем сбрасывать его на Solr. Тика просто извлечет метаданные и содержимое файла и заполнит поля в Solr в соответствии с определенным отображением.

Вы либо должны передать весь файл в качестве входного сигнала в solr, который будет проиндексирован как один документ, либо вы должны прочитать файл строки за строкой и предоставить его Solr в виде отдельного документа.
Solr и Tika не справятся с этим для вас.

+0

Извините, что сменил вопрос. После поиска я узнал, что вы предложили, поэтому я ИЗМЕНИЛ ВОПРОС БИТ. Вы знаете ответ за это? –

+0

обновил ответ. – Jayendra

+0

"* Вам либо нужно подать весь файл в качестве входа в solr *" Можете ли вы обновить свой вопрос на примере того, как это сделать? –

1

Вы можете посмотреть DataImportHandler, чтобы проанализировать файл в строках или записях. Это лучшее совпадение, чем запуск Tika на то, что уже имеет внутреннюю структуру.

Смежные вопросы