2013-03-18 2 views
1

Есть ли способ получить количество абзацев или содержание данного параграфа в pdf-файле с помощью библиотеки iText?. Я видел некоторые классы, такие как Paragraph, Chunk в некотором коде для создания нового файла pdf, но я не могу найти способ получить эти классы в файле чтения. Каждая идея оцениваетсяКак получить содержимое абзаца в pdf-файле с помощью библиотеки iText?

ответ

3

В этом PDF-документе вы говорите о Tagged PDF? Если нет, вы делаете неправильные предположения о PDF. В формате PDF содержимое отображается на странице. Например: iText PdfPTable преобразуется в операторы текстового состояния, которые рисуют фрагменты текста на холсте, а также операторы графического состояния, которые рисуют пути и формы. Если PDF не помечен, строки не знают, что они являются границами таблицы; слово не знает, к какой ячейке принадлежит.

То же самое касается пунктов: фрагмент текста не знает, принадлежит ли он к фразе, к абзацу, в строке заголовка, ...

Из-за самой природы PDF, какие вы ищете, возможно, невозможно (используя iText или любой другой программный продукт), или может потребовать эвристики (искусственный интеллект) для проверки всех операторов текстовых состояний и семантики содержимого, чтобы получить результат, который имитирует, как люди будут интерпретировать текст.

Это очень легко достичь, если ваш PDF-код отмечен правильно. См. Пример ParseTaggedPdf.

Смежные вопросы