Я установил tika с solr, и он хорошо работает для арабского pdf, есть ли какой-нибудь учебник, чтобы это произошло, я видел аналогичный вопрос, и решение заключалось в том, чтобы включить ICU4J.jar, но я сейчас не то, что это значитКак разобрать арабский pdf с Tika
ответ
ICU4J можно скачать здесь: http://site.icu-project.org/download
THANK для вашего ответа, но как его установить? –
WEB-INF/lib - стандартное место для дополнительных библиотек (jar-файлов) в веб-приложении (например, Solr). Если вы запускаете файл войны Solr, найдите библиотеку общих библиотек для вашего контейнера сервлетов (возможно, Tomcat или Jetty). –
unfortunatly Я программист PHP, и я не использую tomcat, вместо этого я использую apache2, с apacheolr в качестве сервера. Любой подробный Howto будет так много абрикосов, спасибо за ваш ответ –
Что вопрос? Вы говорите: «Это хорошо работает для арабского pdf», поэтому я не уверен, что не работает и с чем вам нужна помощь? – Gagravarr
Он работает для другого формата документа, такого как doc, odt и т. Д. ... но для pdf он не извлекает арабский колодец, я думаю, что они нашли решение здесь http://stackoverflow.com/questions/7834401/solr-for -арабский, но я новичок с Java. –