Преобразование PDF-документа в XML-файл, желательно с использованием ITextSharp

У меня есть документ PDF, с которого мне нужно прочитать данные. Я обнаружил, что когда я конвертирую указанный PDF в документ XML, есть удобные теги, которые я могу читать, и поэтому мне нужен способ в коде, конвертировать мои файлы в xml, поэтому я могу, используя файлы карт, читать содержимое данных в базу данных.Преобразование PDF-документа в XML-файл, желательно с использованием ITextSharp

источник

2012-06-21 Kobojunkie

Мой «слишком широкий» смысл покалывает. Не могли бы вы прояснить свой вопрос? Какой у вас файл PDF и что вам нужно извлечь из него в какой-то XML? Вы застряли в определенной части этой задачи? – millimoose

PDF-файл. Мне нужно извлечь данные из нескольких PDF-документов. Теперь они не отформатированы каким-либо стандартным образом, но я знаю, что некоторые из них создаются с использованием Microsoft excel, а другие нет. Но я хочу преобразовать их в XML, поскольку я считаю, что XML легче манипулировать. – Kobojunkie

Ну, я как бы застрял. Я не знаю, какие классы в IText позволят мне конвертировать документы Pdf в Xml на лету. Из примеров и информации, которые я почерпнул до сих пор, похоже, что есть больше для преобразования XML/HTML в PDf, что противоположно тому, что я хочу. – Kobojunkie

Использование PDFMiner

PDFMiner является инструментом для извлечения информации из PDF-документов. Он включает в себя PDF-конвертер, который может преобразовывать PDF-файлы в другие текстовые форматы (например, XML/HTML).

В отличие от других инструментов, связанных с PDF, он полностью фокусируется на получении и анализе текстовых данных. PDFMiner позволяет получить точное местоположение текста на странице, а также другую информацию, такую как шрифты или строки.

У этого есть расширяемый анализатор PDF, который может использоваться для других целей, кроме текстового анализа.

источник

2012-08-23 11:44:45 codingscientist

Преобразование PDF-документа в XML-файл, желательно с использованием ITextSharp

ответ

Смежные вопросы