Вам необходимо установить модуль PyPDF2, чтобы иметь возможность работать с PDF-файлами в Python 3.4. PyPDF2 не может извлекать изображения, диаграммы или другие носители, но он может извлекать текст и возвращать его как строку Python. Чтобы установить его, запустите pip install PyPDF2
из командной строки. Это имя модуля чувствительно к регистру, поэтому обязательно введите «y» в нижнем регистре, а все остальные символы - в верхнем регистре.
>>> import PyPDF2
>>> pdfFileObj = open('my_file.pdf','rb') #'rb' for read binary mode
>>> pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
>>> pdfReader.numPages
56
>>> pageObj = pdfReader.getPage(9) #'9' is the page number
>>> pageObj.extractText()
Последний оператор возвращает весь текст, который доступен на странице 9 документа 'my_file.pdf'.
Не знаете, почему голосующий голос. Как я уже упоминал, я проверил все доступные, а также на google. Единственное, что я нашел, которое можно использовать с Python 3.4, было в этой [детали xPDF] (http://stackoverflow.com/questions/18320932/looking-for-recommendation-on-how-to-convert-pdf-into- структурированный формат? lq = 1) все остальные версии 2.7. Я ничего не нашел на версии 3.4 Python. Просьба также прокомментировать, когда проголосовали. – Bonson