Есть ли способ получить количество абзацев или содержание данного параграфа в pdf-файле с помощью библиотеки iText?. Я видел некоторые классы, такие как Paragraph, Chunk в некотором коде для создания нового файла pdf, но я не могу найти способ получить эти классы в файле чтения. Каждая идея оцениваетсяКак получить содержимое абзаца в pdf-файле с помощью библиотеки iText?
ответ
В этом PDF-документе вы говорите о Tagged PDF? Если нет, вы делаете неправильные предположения о PDF. В формате PDF содержимое отображается на странице. Например: iText PdfPTable преобразуется в операторы текстового состояния, которые рисуют фрагменты текста на холсте, а также операторы графического состояния, которые рисуют пути и формы. Если PDF не помечен, строки не знают, что они являются границами таблицы; слово не знает, к какой ячейке принадлежит.
То же самое касается пунктов: фрагмент текста не знает, принадлежит ли он к фразе, к абзацу, в строке заголовка, ...
Из-за самой природы PDF, какие вы ищете, возможно, невозможно (используя iText или любой другой программный продукт), или может потребовать эвристики (искусственный интеллект) для проверки всех операторов текстовых состояний и семантики содержимого, чтобы получить результат, который имитирует, как люди будут интерпретировать текст.
Это очень легко достичь, если ваш PDF-код отмечен правильно. См. Пример ParseTaggedPdf.
- 1. Получить содержимое абзаца
- 2. Извлечь содержимое оглавления, главы и индекс с помощью библиотеки iText
- 3. Почему этот pageEvent охватывает содержимое страницы с помощью библиотеки iText?
- 4. iText Обработка переполнения абзаца
- 5. Начальная позиция абзаца itext
- 6. IText Перерыв линии предлога абзаца
- 7. Установить цвет фона для абзаца с помощью iText Java
- 8. Как разместить содержимое ByteArrayInputStream в PDF с помощью iText?
- 9. Как получить содержимое zipped-файла с помощью библиотеки rubyzip?
- 10. Как получить свойства AcroField с помощью iText?
- 11. Как получить количество строк с помощью iText
- 12. Как открыть удаленный каталог с помощью iText PDF Java-библиотеки?
- 13. шлейфы Интегральные библиотеки iText
- 14. ItextSharp (Itext) - установить пользовательский шрифт для абзаца
- 15. WPF: Как установить содержимое абзаца в коде?
- 16. Преобразование pdf в pdf/a с помощью библиотеки iText
- 17. Добавить абзац динамически внизу с помощью библиотеки iText в android
- 18. Как получить содержимое из тега абзаца внутри div через DOMDocument?
- 19. Поиск проблемы с изменением установленного шрифта с помощью библиотеки iText
- 20. Определить содержимое абзаца с определенным контурным уровнем
- 21. Получить содержимое XML с AFNetworking библиотеки
- 22. Получить номер страницы в Itext
- 23. Добавление элемента абзаца на iText pdf переходит на следующую страницу
- 24. PDF с помощью IText
- 25. iText для .NET Элемент абзаца перекрывает свой собственный текст
- 26. Header с помощью IText
- 27. Действие TextField с использованием библиотеки iText
- 28. Извлечь содержимое тегов заголовков с помощью библиотеки htmlparser в java
- 29. Специальное выравнивание с помощью IText
- 30. Получить стиль абзаца в JTextPane