2012-04-12 2 views
2

Я хотел бы извлечь данные формы из PDF, используя библиотеку, предпочтительно бесплатную библиотеку программного обеспечения, которая упакована в ubuntu.Извлечение данных формы из PDF (библиотека или utlity)

Например, у меня есть HTML-форма, но я бы также хотел, чтобы пользователи могли представить заполненную форму PDF вместо формы HTML.

Итак, я ищу библиотеку (или простую утилиту CLI), которая берет PDF в качестве входных данных и позволяет мне извлекать заполненные поля по имени, как с HTML.

Я пробовал pdftotext, но на самом деле не сохраняет информацию, он просто отображает PDF как текст. Я попробовал PDFminer, но он, похоже, не работал (по крайней мере, с моим тестовым PDF) вообще (только что получил пустой вывод).

Если это библиотека, я не слишком разборчив в отношении языка, но питон будет плюсом.

+0

Как в стороне, я использовал PDFMiner для очень схожих задач в прошлом, и он всегда работал очень хорошо. – ely

ответ

2

Я использую pdftk для извлечения некоторых данных и управления pdf, но я не уверен, что заполненные формы можно обрабатывать так, как вам нужно.

+0

Я думаю, что это будет работать с использованием dump_data_fields в pdftk. Он выводит его в каком-то текстовом формате, который нужно будет анализировать, но я почти там. Спасибо! – Jeff

Смежные вопросы