Как я могу открыть PDF-файл и прочитать его содержимое с помощью Python (этот язык предпочтителен, однако Ruby, Perl или PHP тоже прекрасны) (если он распознан (а не только изображение)) или сообщите, что это невозможно без OCR? TIAКак открыть PDF и прочитать его?
Обновление: спасибо за решение, я уверен, что некоторые из них мне подойдут.
@RichH У меня есть файл в формате pdf, и я не знаю, является ли оно образным или текстовым. Я ищу инструмент, который поможет мне найти это, и в случае его текстового извлечения часть его содержимого.
Являются ли они изображения PDF файлы или текст PDF файлы (вы можете узнать, пытаясь скопировать текст из вручную)? Что вы хотите прочитать? Текст? Изображений? Компоновка? Возможно, вы тоже захотите изменить свой вопрос - я не понял вторую половину. – RichH
Эта ссылка может вам помочь: http://stackoverflow.com/questions/25665/python-module-for-converting-pdf-to-text. И это 'его' содержимое ;-) – RedGlyph
Вы можете найти this нить полезная. – jkndrkn