2013-04-26 2 views
0

Я хочу программно найти все страницы в PDF, содержащие определенную подстроку, и если они это сделают, я хочу заменить эту страницу другим PDF-файлом. Замена этой страницы не проблема - я могу сделать это с привязками pdflib PHP или pdftk. То, что я не знаю, как это сделать, - это проверить, содержит ли страница определенный текст.Как увидеть, содержит ли страница в pdf-файле конкретный текст

Любые идеи?

+0

зависит от того, является ли текст буквально в формате pdf или если PDF-документ является просто ИЗОБРАЖЕНИЕМ текста ... первый случай прост в обращении. другой, не так много. –

ответ

1

Я думаю, что ваш лучший выбор - это разделение PDF-файлов на отдельных страницах с помощью pdftk, а затем преобразование содержимого в текст с помощью команды pdftotext xpdf и поиск полученного текста с помощью PHP или grep.

Смежные вопросы