Apache Solr - индексирование файлов PDF

Привет Я пробовал делать это с бинарным дистрибутивом, а также скомпилировал исходный код. Пробовал работать с Apache Tomcat. Но я всегда получаю следующую ошибку, когда я использую pdf-файл для целей индексирования. Я использую post.jar, приведенный в примере проекта с Solr.Apache Solr - индексирование файлов PDF

SimplePostTool: version 1.3 
SimplePostTool: POSTing files to http://localhost:8983/solr/update.. 
SimplePostTool: POSTing file 4538a001.pdf 
SimplePostTool: FATAL: Solr returned an error #400 Invalid UTF-8 middle byte 0xe 
3 (at char #10, byte #-1)

Я также попытался запустить это как на Win 7 (JDK 1.7), так и на Centos (1.6).

Я искал в Интернете, и на трекере ошибок найдены исправленные версии файлов Jetty jar, но даже после их замены проблема все еще сохраняется.

Я бы очень признателен за помощь, так как я застрял здесь, я не могу продолжать дальнейшие задачи.

Благодаря

источник

2012-03-29 SarfarazSoomro