2010-03-04 4 views
3

Итак, у меня есть .pdf-файл, и мне нужно определить, было ли оно создано путем сканирования в PDF-файл или нет. Я пытаюсь определить, является ли это pdf, который я могу отображать как текст или нет.Как определить, проверено ли содержимое файла .pdf

У меня есть PHP & Zend в моем распоряжении. Я думаю, что я мог бы использовать от Zend

$pdf->properties['Producer'] 

, но я не уверен на 100%.

Есть ли какой-нибудь способ убедиться в том, какой файл .pdf я имею в виду?

ответ

3

Звуки мне трудно. Существует множество различных идентификаторов «Продюсер», многие из которых поддерживают создание PDF-файлов из любого источника, сканируются ли они из факса, текстового процессора или еще чего-то еще. Существует так много способов создания PDF-файла, вы никогда не сможете отследить, откуда.

Если вы хотите определить, можете ли вы отобразить его в виде текста или нет, почему бы не попытаться извлечь из него какой-либо фактический текст? Если он сканируется (или какой-либо другой встроенный образ), он не должен иметь ничего или очень мало текстового контента. Но тогда есть программы OCR, которые создают отсканированный PDF-файл, который также имеет машиночитаемый текст. Как вы хотите с этим справиться?

Какая у вас конечная цель?

+0

Мы предлагаем "Просмотреть как текст" вариант ссылки. Я пытаюсь скрыть эту опцию, когда PDF-файл является полностью отсканированным изображением (при этом ничего не отображается при просмотре как текст). Ваша идея имеет смысл - я должен иметь возможность извлекать содержимое в переменную, а затем искать переменную для фактического текста как-то. Я надеялся что-то получить от свойств PDF. – Jason

0

Чтобы определить, был ли сканирован файл PDF, откройте его с помощью Adobe Acrobat Reader.

Проверьте, можете ли вы выбрать текст, это означает, что документ НЕ был отсканирован.

enter image description here

Однако, если ваша попытка выбрать текст возвращается к графическому поле выбора, это указывает на то, что документ был отсканирован.

enter image description here

Смежные вопросы