У меня есть документ PDF, с которого мне нужно прочитать данные. Я обнаружил, что когда я конвертирую указанный PDF в документ XML, есть удобные теги, которые я могу читать, и поэтому мне нужен способ в коде, конвертировать мои файлы в xml, поэтому я могу, используя файлы карт, читать содержимое данных в базу данных.Преобразование PDF-документа в XML-файл, желательно с использованием ITextSharp
3
A
ответ
0
Использование PDFMiner
PDFMiner является инструментом для извлечения информации из PDF-документов. Он включает в себя PDF-конвертер, который может преобразовывать PDF-файлы в другие текстовые форматы (например, XML/HTML).
В отличие от других инструментов, связанных с PDF, он полностью фокусируется на получении и анализе текстовых данных. PDFMiner позволяет получить точное местоположение текста на странице, а также другую информацию, такую как шрифты или строки.
У этого есть расширяемый анализатор PDF, который может использоваться для других целей, кроме текстового анализа.
Смежные вопросы
- 1. Преобразование изображения в Pdf с использованием itextsharp в C#
- 2. Преобразование XPS в PDF с использованием PDFsharp или iTextsharp
- 3. Преобразование документов Word и Excel в PDF с использованием ITEXTSHARP
- 4. Преобразование нескольких изображений в несколько страниц PDF с использованием itextsharp
- 5. Проблема с ITextSharp - Преобразование XML в PDF
- 6. Флажок с использованием ITextSharp
- 7. Преобразование PDF в PDFA1-A с iTextSharp
- 8. Печать этикеток с использованием iTextSharp
- 9. высота pdf с использованием itextsharp
- 10. Построение статистических данных, желательно с использованием gnuplot
- 11. переименовать файлы (желательно с использованием python)
- 12. Проблема с использованием таблиц в itextsharp
- 13. Экспорт HTML в PDF с использованием ITextsharp
- 14. позиционирование текста с использованием itextSharp в C3
- 15. экспорт в pdf с использованием itextsharp
- 16. изображение центра в pdf с использованием itextsharp
- 17. iTextSharp - Преобразование слова doc/docx в pdf
- 18. Преобразование шаблона шаблона gridview в pdf iTextSharp
- 19. iTextSharp Таблица Span Pages с использованием Stamper
- 20. Преобразование HTML в PDF с помощью itextsharp в asp.net
- 21. Плохая производительность конвертировать tif в pdf с использованием ITextSharp
- 22. идентифицировать абзацы pdf-файлов с использованием itextsharp
- 23. Автоматические разделительные столбцы с использованием iTextSharp
- 24. Гиперссылка на нижнем колонтитуле с использованием itextSharp
- 25. Подписание pdf с использованием itextsharp 5.4.4 - пример
- 26. Поворот PDF с использованием Powershell и iTextSharp
- 27. Преобразование HTML файл в PDF-файл с помощью ITextSharp
- 28. Преобразование изображений в PDF с iTextSharp сохранение обтравочного контура
- 29. Преобразование страниц PDF-файлов в изображения с помощью itextsharp
- 30. ошибка при создании PDF с использованием ItextSharp
Мой «слишком широкий» смысл покалывает. Не могли бы вы прояснить свой вопрос? Какой у вас файл PDF и что вам нужно извлечь из него в какой-то XML? Вы застряли в определенной части этой задачи? – millimoose
PDF-файл. Мне нужно извлечь данные из нескольких PDF-документов. Теперь они не отформатированы каким-либо стандартным образом, но я знаю, что некоторые из них создаются с использованием Microsoft excel, а другие нет. Но я хочу преобразовать их в XML, поскольку я считаю, что XML легче манипулировать. – Kobojunkie
Ну, я как бы застрял. Я не знаю, какие классы в IText позволят мне конвертировать документы Pdf в Xml на лету. Из примеров и информации, которые я почерпнул до сих пор, похоже, что есть больше для преобразования XML/HTML в PDf, что противоположно тому, что я хочу. – Kobojunkie