Есть ли способ извлечь текст из pdf-файла с помощью русского текста (cp1251)?Parsing cp1251 pdf to text in python
Для анализа файлов в формате PDF я использую pdfminer-пакет. Я попытался указать кодировку в аргументе в формате pdfminer.converter.TextConverter, но это не помогло.
Это не ясно, что вы хотите сделать, как только у вас есть текст, вы хотите, чтобы разобрать его с питоном? – Richard
Я хочу извлечь весь текст (который может быть извлечен) из pdf, а затем проанализировать его с помощью пакета nltk. –