Мне было интересно, можно ли получить текст в PDF по его разделу (заголовок, тело, нижний колонтитул и т. Д.). Я могу получить текст и их конкретные координаты, но я не хочу определять свои собственные x и y для разделов. Мне было интересно, был ли более динамичный способ приблизиться к этому. Возможно, цикл через XrefObjects. Любая помощь будет оценена. Заранее спасибо.Как определить раздел PDF в iTextSharp?
ответ
Если ваши PDF файлы не были созданы очень последовательной источник и вам не придется иметь дело с «PDF-файлов в целом», ответ на ваш вопрос:
- нет, вы можете» t сделать это простым способом
- , но вы можете придумать динамический подход (возможно).
В PDF не имеется положений для составления своего контента, например, у вас есть в XML, HTML, Word и т. Д. Концепция заголовка, тела, нижнего колонтитула не существует. Даже понятия абзаца, строки или слова не существует. PDF заинтересован только в том, чтобы убедиться, что определенные символы (глифы) показаны в определенных местах.
Итак, если вы хотите придумать динамический подход, вам придется написать алгоритм, который анализирует текстовое положение всего текста на странице, сопоставляет его с другими свойствами этого текста (например, используемый шрифт , размер шрифта, цвет, стиль ...), и из этого анализа создается гипотеза о том, что является заголовком, телом и нижним колонтитулом.
- 1. ITextSharp HTML в PDF?
- 2. Как определить конец страницы в pdf-файле, используя itextsharp
- 3. Как сломать PDF Страница в itextsharp PDF
- 4. PDF iTextSharp, писать PDF линию другую страницу
- 5. PDF Объединение по ItextSharp
- 6. iTextSharp получить PDF DPI
- 7. itextsharp html to pdf
- 8. iTextsharp - XmlWorker PDF - & # 160 видны в PDF
- 9. iTextSharp - Password Protect PDF
- 10. iTextSharp PDF Reader Точность
- 11. iTextsharp Ошибка генерации PDF
- 12. iTextsharp PDF Document Properties
- 13. itextsharp multipage pdf form
- 14. iTextSharp конвертирует System.Web.UI.DataVisualization.Charting в pdf
- 15. Itextsharp Pdf в текст извлечения
- 16. Itextsharp создал файл PDF
- 17. itextsharp pdf не отображается
- 18. Itextsharp pdf parsing
- 19. Itextsharp pdf GridView Positioning
- 20. ITextSharp stamper corruptting pdf
- 21. iTextSharp производит недействителен PDF
- 22. PDF checkboxes с iTextsharp
- 23. Itextsharp download PDF
- 24. GridviewRow в PDF с iTextSharp
- 25. iTextSharp PDF Read Error
- 26. ITextsharp редактировать существующие PDF
- 27. ITextSharp подписывает PDF/A документ
- 28. iTextSharp target = _blank в PDF
- 29. GridView в PDF без ITextSharp
- 30. Центрирование pdf-файла в iTextSharp
Общий PDF не содержит явной информации о том, что является заголовком, нижним колонтитулом, телом, он знает только текст и графику, нарисованные в определенных координатах. Вы можете попытаться проанализировать неявную информацию, указанную, например, через шрифты, размер шрифта, выравнивание, пробелы и т. д. Но это сам проект. – mkl