2015-09-20 3 views
0

Я хочу проанализировать некоторые pdf-файлы, содержащие текст и содержащие или не содержащие изображения. Я хочу извлечь текстовую часть как строку для дальнейшей обработки и сохранить изображение как jpeg/png или любой другой формат изображения. какой должен быть лучший модуль для работы?Python: разобрать pdf с изображениями

ответ

2

pdfminer получит ваш текст. pdfrw (отказ от ответственности: я являюсь автором pdfrw) имеет примеры, которые найдут изображения и сбрасывают их на отдельные страницы, а также примеры, которые разделяют PDF-файлы на отдельные страницы, поэтому вы можете легко извлечь все изображения для разделения PDF-файлов. Если вы запустите inkscape в режиме без звука (например, из модуля подпроцесса), он может читать в PDF и выводить другой формат.

+0

В следующей документации pdfminer сказано, что Python 3 не поддерживается. Это так? http://www.unixuser.org/~euske/python/pdfminer/ –

+0

Я думаю, что есть отдельная версия pdfminer3k. Кроме того, PyPDF2 имеет некоторые функции выделения. –

Смежные вопросы