2009-11-08 4 views
2

Как я могу открыть PDF-файл и прочитать его содержимое с помощью Python (этот язык предпочтителен, однако Ruby, Perl или PHP тоже прекрасны) (если он распознан (а не только изображение)) или сообщите, что это невозможно без OCR? TIAКак открыть PDF и прочитать его?

Обновление: спасибо за решение, я уверен, что некоторые из них мне подойдут.

@RichH У меня есть файл в формате pdf, и я не знаю, является ли оно образным или текстовым. Я ищу инструмент, который поможет мне найти это, и в случае его текстового извлечения часть его содержимого.

+0

Являются ли они изображения PDF файлы или текст PDF файлы (вы можете узнать, пытаясь скопировать текст из вручную)? Что вы хотите прочитать? Текст? Изображений? Компоновка? Возможно, вы тоже захотите изменить свой вопрос - я не понял вторую половину. – RichH

+1

Эта ссылка может вам помочь: http://stackoverflow.com/questions/25665/python-module-for-converting-pdf-to-text. И это 'его' содержимое ;-) – RedGlyph

+0

Вы можете найти this нить полезная. – jkndrkn

ответ

1

Разбор PDF-файлов и создание чего-то полезного из него затруднено, так как формат сфокусирован на сохранении макета, так что текст может быть сохранен таким образом, чтобы каждая буква располагалась индивидуально, в зависимости от шрифта текст также мог быть сохранен как графический.

библиотеки для чтения PDF-файлов Я знаю, включает в Zend Framework, который имеет PDF component, который включает в себя PDF-парсер, который может быть использован с PHP и дает более или менее usaable результаты, коммерческий PDFlib, который предлагает вполне приемлемые результаты и предлагает привязку к различным языки.

Смежные вопросы