Извлечение текста Pdf на windows 8 с использованием python 3.5.0

Я хочу извлечь тексты из файла Pdf с помощью python 3.5.0 с помощью пакета slate на windows8.

Проблема: Несмотря на то, что я успешно установил пакет слайдов, когда я пытаюсь импортировать сланец, есть определенные ошибки. Пожалуйста, предложите, что мне не хватает.Извлечение текста Pdf на windows 8 с использованием python 3.5.0

Ошибки:

Traceback (most recent call last): File "", line 1, in import slate File "C:\Users\name\AppData\Local\Programs\Python\Python35-32\lib\site-packages\slate-0.4.1-py3.5.egg\slate__init__.py", line 66, in from slate import PDF

ImportError: cannot import name 'PDF'

источник

2015-09-29 B Singh

шифер зависит от PDFMiner (Python 3 не поддерживается.)

Вы можете попробовать установить его с помощью:

pip install PDFMiner

Я пошел с установкой pdfminer3k - pypi - но он не ответил хорошо с места в карьер (и документация была не очень хорошая), поэтому я посмотрел немного больше и нашел эту страницу для possible alternatives. Дайте мне знать, если любой из них удовлетворит.

источник

2015-12-28 20:35:01

Вы можете попробовать pdftotext (windows version) из библиотеки poppler.

В качестве автономной программы для нее не требуется Python. Но я часто использую его с Python как подпроцесс, как это:

import subprocess 

args = ['pdftotext', '-layout', '-q', 'input.pdf', '-'] 
txt = subprocess.check_output(args, universal_newlines=True)

источник

2015-12-28 20:44:43

Вы можете установить pdfminer.six

pip install pdfminer.six

https://pypi.python.org/pypi/pdfminer.six/20160614

источник

2017-02-16 10:52:29 Bonson

Извлечение текста Pdf на windows 8 с использованием python 3.5.0

ответ

Смежные вопросы