2011-02-05 3 views
4

Возможно ли получить координаты X/Y и высоту/ширину всех текстовых полей в документе PDF с использованием библиотеки PHP или linux? Я использую PDFTK для извлечения всех текстовых полей в PDF, но это не дает мне координаты и/или информацию о размерах. Если нет, возможно ли пересечение PDF-документа и вычисление данных x, y и высоты/ширины для текстовых полей?Получить размеры и координаты текстовых полей в PDF

ответ

0

Возможно, но вряд ли выполнимо.

Вы можете открыть PDF-документы на PHP с помощью FPDI. Он генерирует абстрактное дерево PDF-объектов в памяти. TCPDF и FPDF могут сохранить его обратно.

Однако пересечение указанного дерева и поиск правильных атрибутов очень. (Я случайно глагол.)

Теперь формат PDF на самом деле удобочитаемый человеком. И это, безусловно, будет содержать координаты в читаемом формате (это в основном в точках IIRC). Поэтому вы можете обнаружить это с помощью простого регулярного выражения, если бы вы знали только, где искать. Некоторые узлы просто должны быть gzuncompress() ed, и вы не пытаетесь изменить документ или сохранить его в любом случае. Итак, попробуйте FPDI и print_r(), чтобы разработать стратегию.

0

Да, это не слишком сложно. лучший инструмент, который я знаю для работы, - pdfminer. это python, но если вы не хотите использовать python, вы можете просто сбросить информацию в формате pdf в формате xml и проанализировать, что с вашим выбором оружия :) ответьте, если у вас есть проблемы :)