Ghostscript преобразование pdf в текстовый файл, выход нечитабельно

Я пытался конвертировать PDF-документ в текстовый файл. все работает, пока я не открыть выходной файл, чтобы увидеть его нечитаемые символы в каком-то китайском шрифтGhostscript преобразование pdf в текстовый файл, выход нечитабельно

«琀攀猀琀»

это моя командная строка

gswin64c.exe -ps2ascii -sDEVICE=txtwrite -sOutputFile=outputtext.txt test.pdf

им я делаю что-то неправильно ?

источник

2016-10-24 Claudiga

Я бы попытался повторно отправить это запрос о 'gswin64' и' ghostscript' вместо этого. Ваш код python просто передает строку в оболочку. –

это не проблема python! вы попробовали одну командную строку? –

@ Jean-FrançoisFabre да я тоже пробовал его в командной строке, но тот же результат – Claudiga

Вы не отправил файл, поэтому его нельзя быть абсолютно уверенным, однако ....

Почти наверняка текст в файле PDF не кодируется с использованием схемы кодирования ASCII (возможно, содержит закат шрифты) и не содержит CMU ToUnicode для рассматриваемого шрифта. Кроме того, имена глифов не являются стандартными именами (или шрифтом TrueType, которые не имеют названных глифов).

Без какой-либо из вышеперечисленных сведений txtwrite не имеет понятия, что представляют собой коды символов, и поэтому просто выдает их дословно.

Учитывая, что вы видите китайские глифы, я подозреваю, что исходный шрифт является CIDFont, вероятно, шрифтом TrueType, подмножеством и не имеет CMU ToUnicode.

В этом случае единственным способом получить текст будет использование OCR.

источник

2016-10-25 07:13:06 KenS

* «закатные шрифты» * - очень романтично ...;) – mkl

Ghostscript преобразование pdf в текстовый файл, выход нечитабельно

ответ

Смежные вопросы