Я получаю сообщение об ошибке при использовании textextractor библиотеки pdfclown. Код я использовал этоизвлечение текста с использованием функции pdfclown 'textextractor'
TextExtractor textExtractor = new TextExtractor(true, true);
for(final Page page : file.getDocument().getPages())
{
System.out.println("\nScanning page " + (page.getIndex()+1) + "...\n");
// Extract the page text!
Map textStrings = textExtractor.extract(page);
часть ошибки я получил это
exception in thread 'main' java.lang.exceptionininitializer error
at org.pdfclown.document.contents.fonts.encoding.put
at ......
at ......
<about 30 such lines>
caused by java.lang.nullpointerexception
at java.io.reader.<init><Reader.java:78>
at java.io.inputstreamreader
<about 30 lines more>
Я также узнал, что это происходит, когда мой PDF содержит несколько пуль, например
- пункт 1
- позиция 2
- позиция 3
Plz помогите мне извлечь текст из таких pdf-файлов.
Просьба представить PDF-документ, о котором идет речь. – mkl
@mkl Я столкнулся с одной и той же проблемой во многих других PDF-файлах. Один такой pdf-файл [этот] (https://docs.google.com/file/d/0B9xa_HtrD7kcUjM4cjAyX2JGVkk/edit?usp=sharing) – utkarsh
Я только что проверил ваш PDF-файл с исходным фрагментом (очевидно, с закрытым '}' добавленным), и PDF был извлечен в порядке, по крайней мере, исключение не было выбрано, и весь текст (кроме заголовка) был извлечен в порядке. Я использовал текущую версию trunk PDF Clown в среде java 6. Таким образом, вы можете проверить версию, которую используете, и, если это не помогло, предоставить более полный исходный код и трассировку стека. – mkl