2012-04-09 2 views
1

Я установил tika с solr, и он хорошо работает для арабского pdf, есть ли какой-нибудь учебник, чтобы это произошло, я видел аналогичный вопрос, и решение заключалось в том, чтобы включить ICU4J.jar, но я сейчас не то, что это значитКак разобрать арабский pdf с Tika

+1

Что вопрос? Вы говорите: «Это хорошо работает для арабского pdf», поэтому я не уверен, что не работает и с чем вам нужна помощь? – Gagravarr

+0

Он работает для другого формата документа, такого как doc, odt и т. Д. ... но для pdf он не извлекает арабский колодец, я думаю, что они нашли решение здесь http://stackoverflow.com/questions/7834401/solr-for -арабский, но я новичок с Java. –

ответ

1

ICU4J можно скачать здесь: http://site.icu-project.org/download

+0

THANK для вашего ответа, но как его установить? –

+0

WEB-INF/lib - стандартное место для дополнительных библиотек (jar-файлов) в веб-приложении (например, Solr). Если вы запускаете файл войны Solr, найдите библиотеку общих библиотек для вашего контейнера сервлетов (возможно, Tomcat или Jetty). –

+0

unfortunatly Я программист PHP, и я не использую tomcat, вместо этого я использую apache2, с apacheolr в качестве сервера. Любой подробный Howto будет так много абрикосов, спасибо за ваш ответ –