Как я могу извлечь первый абзац PDF-документа, используя Perl's CAM::PDF?Как я могу извлечь первый абзац PDF-документа с помощью CAM: PDF?
1
A
ответ
0
Обычный PDF действительно не является языком разметки. Текст рисуется в определенных местах. Есть что-то под названием Tagged PDF, и если ваши документы отмечены, ваша работа может быть проще.
Я был бы склонен запускать документы через PDF-переводчик текста и извлекать из него первый фрагмент текста, если текст сохраняется как текст в PDF-файле, а не изображения.
1
print CAM::PDF->new('file.pdf')->getPageText(1);
доставит вам весь текст со страницы. Но CAM :: PDF определенно не лучший инструмент для этой конкретной работы (я автор). Я добавил извлечение текста как прихоть, чтобы посмотреть, смогу ли я это сделать.