Я хочу проанализировать некоторые pdf-файлы, содержащие текст и содержащие или не содержащие изображения. Я хочу извлечь текстовую часть как строку для дальнейшей обработки и сохранить изображение как jpeg/png или любой другой формат изображения. какой должен быть лучший модуль для работы?Python: разобрать pdf с изображениями
0
A
ответ
2
pdfminer получит ваш текст. pdfrw (отказ от ответственности: я являюсь автором pdfrw) имеет примеры, которые найдут изображения и сбрасывают их на отдельные страницы, а также примеры, которые разделяют PDF-файлы на отдельные страницы, поэтому вы можете легко извлечь все изображения для разделения PDF-файлов. Если вы запустите inkscape в режиме без звука (например, из модуля подпроцесса), он может читать в PDF и выводить другой формат.
Смежные вопросы
- 1. разобрать pdf с использованием python
- 2. создать pdf с изображениями
- 3. Создать pdf-файл с изображениями
- 4. python server с изображениями
- 5. Ruby Parse PDF-файл с текстом и изображениями
- 6. IText создавать PDF/A_1A с изображениями
- 7. Создание PDF-файлов с изображениями в wp8
- 8. Преобразование HTML в PDF с изображениями
- 9. Создание PDF-файлов с изображениями слишком медленно
- 10. FPDF проблема при создании PDF с изображениями
- 11. компресс pdf с большими изображениями через java
- 12. Создание PDF с изображениями последовательного заказа FPDF
- 13. Создать PDF-файл с изображениями в WinRT
- 14. iTextSharp HTML to PDF - Обращение с изображениями
- 15. Создание pdf-файлов с встроенными изображениями с помощью (py) Cairo
- 16. Сгенерировать PDF-файл с изображениями Prawn PDF Rails
- 17. Как разобрать PDF с помощью AS3? (воздух)
- 18. Как разобрать арабский pdf с Tika
- 19. Как разобрать pdf в Ruby
- 20. как разобрать много PDF-файлов
- 21. Проблемы с изображениями с изображениями
- 22. Html to pdf с изображениями с использованием hiqpdf
- 23. Экспорт Gridview в PDF с изображениями с шириной ячейки
- 24. создание pdf с itextsharp с изображениями из базы данных
- 25. Рисование PDF с форматированным текстом с изображениями на iPhone
- 26. Python пытается разобрать вход
- 27. Как создать gif с изображениями в Python
- 28. Построение модели Python Django с несколькими изображениями
- 29. Python GTK: прокручиваемая сетка с интерактивными изображениями
- 30. Чтение изображения в python - экспериментирование с изображениями
В следующей документации pdfminer сказано, что Python 3 не поддерживается. Это так? http://www.unixuser.org/~euske/python/pdfminer/ –
Я думаю, что есть отдельная версия pdfminer3k. Кроме того, PyPDF2 имеет некоторые функции выделения. –