2013-07-09 2 views
2

Я пытаюсь получить размер шрифта или формат (полужирный и т. Д.) Определенного текста или строки из pdf-файла, но без каких-либо успехов до сих пор.PDFbox - получить размер шрифта или текста или формат текста

Использование PDFTextStripper как ниже будет получить только обычный текст,

PDFTextStripper стриптизершу = новый PDFTextStripper(); Строка actualText = stripper.getText (actualDoc);

Можете ли вы мне помочь? спасибо.

ответ

0

Необходимо удлинить PDFTextStripper и перезаписать PDFTextStripper#processTextPosition. Этот метод дает вам доступ к объекту TextPosition, в котором сохраняются атрибуты шрифта. Затем вам нужно собрать все текстовые поля, которые находятся в указанном поле (ваша строка), и собрать их вместе.

+1

В качестве альтернативы @mihai может перезаписывать 'writeString (String, List )' --- здесь информация уже была отсортирована и отфильтрована. – mkl

+0

@mkl Спасибо, я только начал изучать PDFbox, и ваш комментарий тоже помог мне! Overwriting 'writeString (String, List )' действительно должен быть более простым способом сделать это. –

+0

Эта перегрузка 'writeString' является довольно недавним дополнением к библиотеке. Таким образом, даже долговременные пользователи PDFBox могут его пропустить;). – mkl

Смежные вопросы