2009-10-23 2 views

ответ

0

Обычный PDF действительно не является языком разметки. Текст рисуется в определенных местах. Есть что-то под названием Tagged PDF, и если ваши документы отмечены, ваша работа может быть проще.

Я был бы склонен запускать документы через PDF-переводчик текста и извлекать из него первый фрагмент текста, если текст сохраняется как текст в PDF-файле, а не изображения.

1
print CAM::PDF->new('file.pdf')->getPageText(1); 

доставит вам весь текст со страницы. Но CAM :: PDF определенно не лучший инструмент для этой конкретной работы (я автор). Я добавил извлечение текста как прихоть, чтобы посмотреть, смогу ли я это сделать.