Извлечение данных из PDF

-1

Я получаю 15+ PDF в день, когда я должен войти в базу данных. Они создаются из таблицы, где «Бланки» заполняются из определенных полей таблицы. Любые инструменты или примеры кода python, которые я мог бы использовать, чтобы попытаться разработать средство извлечения данных из PDF для записи или создания таблицы для импорта в таблицу базы данных? В настоящее время в базе данных находится Access mdb. ThanksИзвлечение данных из PDF

источник

2016-10-06 Tyler Veinot

Обратите внимание, что [вопросы, требующие рекомендации за пределами ресурсов сайта, не относятся к теме для переполнения стека] (// meta.stackoverflow.com/q/251134/2747593). Вместо этого, если у вас есть конкретный вопрос о коде, который * вы написали *, пожалуйста, покажите нам [то, что вы пробовали] (http://whathaveyoutried.com), и обязательно включите [mcve]. См. Также [ask]. –

Существует ряд подходов, которые будут работать. Один простой подход состоит в том, чтобы просто распечатать PDF-файл в текстовом файле, а затем получить доступ к импорту этого текста. Все последние версии окон позволяют установить «текстовый» принтер, который выводит печать документа в текстовый файл. Вы можете получить доступ к «процессу» в папке pdf-файлов, распечатать их в тексте и затем импортировать эти текстовые файлы. Возможно, вам понадобится VBA для удаления «страниц» и некоторых дополнительных строк перед импортом данных в Access.

Другим подходом является использование Word (автоматизация из доступа) для открытия PDF-файла. Когда слово открывает pdf-файл, оно преобразует его в текстовый документ. Этот подход будет даже форматировать строки в виде таблицы слов. Затем вы можете вырвать данные таблицы и отправить эти данные в слово. Вероятно, вы можете извлечь этот текст, не записывая данные в текстовый файл, или просто используйте слова «save-as» в текстовый файл (вы можете автоматизировать этот процесс из Access).

Другой подход - использовать бесплатную библиотеку Ghost Script, которая может извлекать текст из PDF (это я бы рассмотрел, если в вашем распоряжении не было слова).

Итак, какое решение лучше всего будет зависеть от текущего программного обеспечения, которое вы собираетесь установить на компьютере, на котором работает Access. Открытие файлов PDF со словом будет моим первым выбором и тестом.

источник

2016-10-08 05:07:46

Это сработало для меня, я не смог реализовать все решение, но у меня есть формат, который я могу искать и извлекать из него данные. Спасибо за помощь –

На моей старой работе мы использовали Cogniview, которая быстро конвертировала PDF в электронные таблицы Excel. Если вы хотите использовать Python, быстрый поиск дал мне это, что кажется достаточно прямым, PDF to XLS with Python

источник

2016-10-06 18:36:42

Я видел веб-инструмент для преобразования, но не API для python, однако после его тестирования есть 2 проблемы; он свободен с ограничениями и является веб-инструментом. API просто позволяет python подключаться к серверу. Я не хочу, чтобы эти pdf-файлы находились в открытом доступе, поэтому, к сожалению, этот инструмент не может быть и речи. Однако ваш ответ привел меня к PDFQuery и PDF Miner, с которыми я играю в python27. Знать какие-либо ресурсы для любого из этих двух модулей? –

Я лично никогда не использовал ни одного из них. Я уверен, что есть отличная документация, кроме [this] (https://media.readthedocs.org/pdf/pdfminer-docs/latest/pdfminer-docs.pdf) и [this] (https: // www .binpress.com/учебник/манипулируя-PDFs-с-питон/167). Удачи! –

Извлечение данных из PDF

ответ

Смежные вопросы