2012-03-29 4 views
0

Привет Я пробовал делать это с бинарным дистрибутивом, а также скомпилировал исходный код. Пробовал работать с Apache Tomcat. Но я всегда получаю следующую ошибку, когда я использую pdf-файл для целей индексирования. Я использую post.jar, приведенный в примере проекта с Solr.Apache Solr - индексирование файлов PDF

SimplePostTool: version 1.3 
SimplePostTool: POSTing files to http://localhost:8983/solr/update.. 
SimplePostTool: POSTing file 4538a001.pdf 
SimplePostTool: FATAL: Solr returned an error #400 Invalid UTF-8 middle byte 0xe 
3 (at char #10, byte #-1) 

Я также попытался запустить это как на Win 7 (JDK 1.7), так и на Centos (1.6).

Я искал в Интернете, и на трекере ошибок найдены исправленные версии файлов Jetty jar, но даже после их замены проблема все еще сохраняется.

Я бы очень признателен за помощь, так как я застрял здесь, я не могу продолжать дальнейшие задачи.

Благодаря

ответ

3

Solr обновления специальный формат XML, поэтому он отвергает файл PDF.

Вы можете настроить обработчик запроса на извлечение, который будет анализировать PDF-файл, а затем обработать извлеченный текст в виде обновления.

См: http://wiki.apache.org/solr/ExtractingRequestHandler

+0

Большое спасибо – SarfarazSoomro

Смежные вопросы