2016-11-17 3 views
1

Я использую pdf.js. Извлечение текста я получаю блоки шрифта Информацияpdf.js получить информацию о встроенных шрифтах

Object { 
    str: "blabla", 
    dir: "ltr", 
    width: 191.433141, 
    height: 12.546, 
    transform: Array[6], 
    fontName: "g_d0_f2" 
} 

Можно ли получить как-то более подробную информацию о g_d0_f2.

+0

Посредством недокументированного API, страница obj имеет свойство commonObjs (https://github.com/mozilla/pdf.js/blob/master/examples/svgviewer/viewer.js#L29) - вы получите данные ttf/otf , вы можете разобрать его и найти всю необходимую информацию :) – async5

ответ

0

Обратите внимание, что файл PDF.js getTextContent не будет и не должен совпадать с глифами в PDF-файлах. Спецификация PDF32000 имеет два разных алгоритма для отображения и извлечения текста. Даже если вы можете искать данные шрифта в файле page.commonObjs, это может быть не очень полезно для извлечения текстового содержимого из-за несоответствия кодировки глифов.

GetTextContent страницы выполняет извлечение текста, а getOperatorList получает (отображает) символы отображения. Посмотрите, как отображает глифы src/display/svg.js.

Смежные вопросы