2012-06-21 2 views
3

У меня есть документ PDF, с которого мне нужно прочитать данные. Я обнаружил, что когда я конвертирую указанный PDF в документ XML, есть удобные теги, которые я могу читать, и поэтому мне нужен способ в коде, конвертировать мои файлы в xml, поэтому я могу, используя файлы карт, читать содержимое данных в базу данных.Преобразование PDF-документа в XML-файл, желательно с использованием ITextSharp

+0

Мой «слишком широкий» смысл покалывает. Не могли бы вы прояснить свой вопрос? Какой у вас файл PDF и что вам нужно извлечь из него в какой-то XML? Вы застряли в определенной части этой задачи? – millimoose

+0

PDF-файл. Мне нужно извлечь данные из нескольких PDF-документов. Теперь они не отформатированы каким-либо стандартным образом, но я знаю, что некоторые из них создаются с использованием Microsoft excel, а другие нет. Но я хочу преобразовать их в XML, поскольку я считаю, что XML легче манипулировать. – Kobojunkie

+0

Ну, я как бы застрял. Я не знаю, какие классы в IText позволят мне конвертировать документы Pdf в Xml на лету. Из примеров и информации, которые я почерпнул до сих пор, похоже, что есть больше для преобразования XML/HTML в PDf, что противоположно тому, что я хочу. – Kobojunkie

ответ

0

Использование PDFMiner

PDFMiner является инструментом для извлечения информации из PDF-документов. Он включает в себя PDF-конвертер, который может преобразовывать PDF-файлы в другие текстовые форматы (например, XML/HTML).

В отличие от других инструментов, связанных с PDF, он полностью фокусируется на получении и анализе текстовых данных. PDFMiner позволяет получить точное местоположение текста на странице, а также другую информацию, такую ​​как шрифты или строки.

У этого есть расширяемый анализатор PDF, который может использоваться для других целей, кроме текстового анализа.

Смежные вопросы