2014-09-13 2 views
0

Я пытаюсь индексировать некоторые данные из базы данных. Для каждой страницы, представленной в таблице базы данных, есть некоторые связанные документы.Solr - не удается проанализировать файлы с использованием вложенного объекта tika

Я заметил, что индексирование вообще работает, но текст «текст» от Tika полностью игнорируется и вообще не загружается, без каких-либо разумных исключений в журналах.

Мой congig данных: http://pastebin.com/XdwenPTE, моя схема: http://pastebin.com/zXEuFTHE, мой Solr конфигурации: http://pastebin.com/qLiuT0tq

Вы можете посмотреть на мои конфиги и скажите мне, если я что-нибудь не определять? Когда я делаю запрос по индексированным данным, нет даже текущего поля «текст» - почему?

[править] Я изменил путь к файлу, переданный ТИК в:

url="${page_resource_list.FILE_PATH}" 

Но все-таки файл контент не индексируется вообще. Есть идеи? У меня есть некоторые исключения, говорящие о не найденных файлах (это хорошо, потому что некоторые файлы отсутствуют), но нет никаких исключений из-за каких-либо проблем с существующими файлами. И Тика ничего не проиндексировал.

Кажется, что проблема та же, что описана здесь: Solr's TikaEntityProcessor not working - но это еще не исправлено?

ответ

0

Ссылка на сущность для FILE_PATH: ${page_resource_list.FILE_PATH}, а не ${page_content.FILE_PATH} (у которой только CONTENT определен как столбец).

У вас также есть LogTransformer, который может помочь вам, предоставив вам лучшую отладочную информацию о фактическом содержимом ваших полей при индексировании.

+0

Я обновил свой вопрос – user1209216

+0

Это была моя ошибка .. Пути файлов из дабаза были неправильными. Однако у меня есть некоторые другие проблемы с многозначными полями, но я создам для этого еще один вопрос. – user1209216

Смежные вопросы