2016-10-24 1 views
2

Я пытался конвертировать PDF-документ в текстовый файл. все работает, пока я не открыть выходной файл, чтобы увидеть его нечитаемые символы в каком-то китайском шрифтGhostscript преобразование pdf в текстовый файл, выход нечитабельно

«琀 攀 猀 琀»

это моя командная строка

gswin64c.exe -ps2ascii -sDEVICE=txtwrite -sOutputFile=outputtext.txt test.pdf 

им я делаю что-то неправильно ?

+1

Я бы попытался повторно отправить это запрос о 'gswin64' и' ghostscript' вместо этого. Ваш код python просто передает строку в оболочку. –

+0

это не проблема python! вы попробовали одну командную строку? –

+0

@ Jean-FrançoisFabre да я тоже пробовал его в командной строке, но тот же результат – Claudiga

ответ

2

Вы не отправил файл, поэтому его нельзя быть абсолютно уверенным, однако ....

Почти наверняка текст в файле PDF не кодируется с использованием схемы кодирования ASCII (возможно, содержит закат шрифты) и не содержит CMU ToUnicode для рассматриваемого шрифта. Кроме того, имена глифов не являются стандартными именами (или шрифтом TrueType, которые не имеют названных глифов).

Без какой-либо из вышеперечисленных сведений txtwrite не имеет понятия, что представляют собой коды символов, и поэтому просто выдает их дословно.

Учитывая, что вы видите китайские глифы, я подозреваю, что исходный шрифт является CIDFont, вероятно, шрифтом TrueType, подмножеством и не имеет CMU ToUnicode.

В этом случае единственным способом получить текст будет использование OCR.

+0

* «закатные шрифты» * - очень романтично ...;) – mkl

Смежные вопросы