2013-08-07 2 views
3

Я использую Apache-nutch 1.6, мое требование - обходить PDF-документы как .pdf-файл, но я не мог сканировать pdf-файл как сам текст. В моем nutch-site.xml, я даю http.agent.name, http.robots.name, только http.proxy.host .. Мне нужно что-то добавить ... В моих плагинах у меня есть только синтаксический анализ -tika, есть ли что-нибудь добавить ... Если это так предложить мне ссылку ...Как сканировать документы PDF с помощью Nutch 1.6?

я могу ползать .html но .pdf файл не parsetext ....

Ошибка: parse.ParseUtil - Невозможно успешно анализировать содержание http://nutch.apache.orgmailing_lists.pdf типа приложения/PDF parse.ParseSegment - Ошибка синтаксического анализа: http://nutch.apache.org/mailing_lists.pdf: не удался (2200): org.apache.nutch.parse.ParseException: Не удается успешно разобрать содержание

Заранее спасибо ....

ответ

2

Как мне известно ... Проверьте pdpage.class (путь для этого класса: pdfbox-app-1.8.2/org/apache/pdfbox/pdmodel/PDPage.class) содержит ваш pdfbox или нет. это необходимо для вашей проблемы.

+0

parse-tika/pdfbox-1.7.0/org/apache/pdfbox/pdmodel/PDPage.class ... У меня есть файл pdfbox по этому пути, но в моем журнале ......... с org. [email protected] java.util.concurrent.ExecutionException: java.lang.NoClassDefFoundError: не удалось инициализировать класс org.apache.pdfbox.pdmodel.PDPage –

+1

parse.ParserFactory - плагины синтаксического анализа: [org .apache.nutch.parse.tika.TikaParser] включены через plugin.includes системное свойство, и все утверждают, что поддерживают приложение типа содержимого/pdf, но они не сопоставляются с ним в файле parse-plugins.xml. .. Я думаю, что это проблема и нужно исправить ... –

Смежные вопросы