2016-05-20 2 views
1

Можно копировать текст из pdf и компарировать его. И здесь мне нужно сравнить, если макет PDF с другим PDF-файлом. Возможно ли это программно? Существуют сторонние инструменты для этого, но доступны ли они для тестирования с использованием селена или любого языка программирования?Как сравнить макет PDF-файлов программно?

Я прошел через Google, но не смог найти надежного решения для этого еще? Любая помощь оценивается.

+0

Что вы подразумеваете под «сравнением макета»? – mkl

+0

@mkl Нужно проверить положение/отступы/выравнивание текста/изображений/строк в файле pdf. имеет смысл? –

+0

Так было бы достаточно, если бы у вас была функция, которая извлекает все текстовые фрагменты с их позицией и ориентацией из PDF-файла? Вы можете применить эту функцию к файлам PDF, которые вы хотите сравнить, а затем сравнить их (фрагмент текста, положение, ориентация). – mkl

ответ

0

С PDF Box apache вы должны быть среди прочего, чтобы извлечь текст из существующих документов PDF.

ps: вам, вероятно, придется создать пользовательскую программу в jave для извлечения и сравнения и вызова из selinium.

+0

Я могу извлечь текст, это не намерение здесь. Мне нужно сравнить расположение файла pdf, возможно ли это? –

+0

Сравнение PDF-файлов не представляется возможным. Тем не менее это расширение [PDF Box Layout] (https://github.com/ralfstuckert/pdfbox-layout/wiki), которое может быть полезно. – uniknow

+0

Это также может быть интересно посмотреть: https://www.snowtide.com/help/3.3.1. У этого также есть способы гарантировать макет извлеченного (см. Https://www.snowtide.com/help/3.3.1/controlling-formatting-extracted-text) – uniknow

Смежные вопросы