Я пытаюсь прочитать текст из файла PDF, а затем позже написать тот же текст обратно в другой PDF, используя Python. После того, как текст читается, представление строки, когда я распечатать его на консоли:Чтение и запись PDF-файлов с лигатурами?
Officially, it’s called
Однако, когда я напечатать repr()
этой текстовой строки, я вижу:
O\xef\xac\x83cially, it\xe2\x80\x99s called
Это имеет для меня большой смысл - это лигатуры символов из PDF-файлов, то есть \ xef \ xac \ x83 представляет собой лигатуру для ff. Проблема заключается в том, что, когда я пишу эту строку в формат PDF, используя ReportLab библиотеки, ПРВ черных символов на месте, как показано ниже:
Это происходит только с определенными лигатурами. Мне интересно, что я могу сделать, чтобы строка, которую я пишу в PDF, не содержит этих лигатур или если есть эффективный способ заменить все из них.
Какой шрифт вы здесь используете? Имеет ли он лигатуру 'ffi'? – usr2564301