2015-08-26 3 views
0

Есть ли способ извлечь текст из pdf-файла с помощью русского текста (cp1251)?Parsing cp1251 pdf to text in python

Для анализа файлов в формате PDF я использую pdfminer-пакет. Я попытался указать кодировку в аргументе в формате pdfminer.converter.TextConverter, но это не помогло.

+0

Это не ясно, что вы хотите сделать, как только у вас есть текст, вы хотите, чтобы разобрать его с питоном? – Richard

+0

Я хочу извлечь весь текст (который может быть извлечен) из pdf, а затем проанализировать его с помощью пакета nltk. –

ответ

0

Если вы хотите разобрать текст еще раз, извлекая его из файла PDF, вам понадобится python ... Так что просто извлеките текст сначала, не конвертируйте текст и сохраните его в txt-файле.

Вы можете использовать PDF2TXT для этой цели (с unbuntu: http://manpages.ubuntu.com/manpages/precise/man1/pdf2txt.1.html)

Затем вы открываете файл с питоном и преобразованием текста формы cp1251 в UTF-8, принятый здесь ответ покажет вам, как это сделать :

How to convert a string from CP-1251 to UTF-8?

Затем разобрать ...

+0

Благодарим за ответ, но есть ли способ извлечь текст без использования внешних исполняемых файлов, например pdf2txt, просто используя какой-то пакет python? –

+0

pdf2txt - это модуль python, который обертывает файл pdfminer ... – Richard

+0

Я попытался использовать pdftotext из командной строки, но для pdf с русским текстом он не хочет работать должным образом (он извлекает ТОЛЬКО английские слова со специальными символами - оба ASCII). –