Возможно ли получить координаты X/Y и высоту/ширину всех текстовых полей в документе PDF с использованием библиотеки PHP или linux? Я использую PDFTK для извлечения всех текстовых полей в PDF, но это не дает мне координаты и/или информацию о размерах. Если нет, возможно ли пересечение PDF-документа и вычисление данных x, y и высоты/ширины для текстовых полей?Получить размеры и координаты текстовых полей в PDF
ответ
Возможно, но вряд ли выполнимо.
Вы можете открыть PDF-документы на PHP с помощью FPDI. Он генерирует абстрактное дерево PDF-объектов в памяти. TCPDF и FPDF могут сохранить его обратно.
Однако пересечение указанного дерева и поиск правильных атрибутов очень. (Я случайно глагол.)
Теперь формат PDF на самом деле удобочитаемый человеком. И это, безусловно, будет содержать координаты в читаемом формате (это в основном в точках IIRC). Поэтому вы можете обнаружить это с помощью простого регулярного выражения, если бы вы знали только, где искать. Некоторые узлы просто должны быть gzuncompress() ed, и вы не пытаетесь изменить документ или сохранить его в любом случае. Итак, попробуйте FPDI и print_r(), чтобы разработать стратегию.
Да, это не слишком сложно. лучший инструмент, который я знаю для работы, - pdfminer. это python, но если вы не хотите использовать python, вы можете просто сбросить информацию в формате pdf в формате xml и проанализировать, что с вашим выбором оружия :) ответьте, если у вас есть проблемы :)