Python: разобрать pdf с изображениями

Я хочу проанализировать некоторые pdf-файлы, содержащие текст и содержащие или не содержащие изображения. Я хочу извлечь текстовую часть как строку для дальнейшей обработки и сохранить изображение как jpeg/png или любой другой формат изображения. какой должен быть лучший модуль для работы?Python: разобрать pdf с изображениями

источник

2015-09-20 Kamrul Khan

pdfminer получит ваш текст. pdfrw (отказ от ответственности: я являюсь автором pdfrw) имеет примеры, которые найдут изображения и сбрасывают их на отдельные страницы, а также примеры, которые разделяют PDF-файлы на отдельные страницы, поэтому вы можете легко извлечь все изображения для разделения PDF-файлов. Если вы запустите inkscape в режиме без звука (например, из модуля подпроцесса), он может читать в PDF и выводить другой формат.

источник

2015-09-20 20:38:43

В следующей документации pdfminer сказано, что Python 3 не поддерживается. Это так? http://www.unixuser.org/~euske/python/pdfminer/ –

Я думаю, что есть отдельная версия pdfminer3k. Кроме того, PyPDF2 имеет некоторые функции выделения. –

Python: разобрать pdf с изображениями

ответ

Смежные вопросы