2013-06-01 7 views
0

Не уверен, что это подходящее место для этого вопроса, но я не смог найти какой-либо другой совет.редактирование pdf через html

+0

Как в стороне, есть ли причина, по которой вы не считаете попытку извлечь текст из PDF перед OCR'ing? – mkl

+0

В этом причина выбора пользователя. Однако это не объясняет, почему вы не хотите отправляться на извлечение текста из отмеченной области перед тем, как OCR его. – mkl

+0

PDF - это формат, который уже может содержать информацию, текст которой присутствует где-то на странице PDF. Если ваши файлы PDF содержат эту информацию, OCR не требуется, и поэтому вы не получите ошибок OCR. Но, как упоминалось в моем первом комментарии, это только в сторону. – mkl

ответ

0

Извлечение текста. Поскольку mkl упоминается в комментариях, PDF может уже содержать слой текста (в цифровом виде или предварительно OCRed), или он может быть только для изображений PDF без текста (отсканированный или растрированный). Можно попытаться удалить существующее изъятие текста, но я даю ему мало шансов на успех, потому что PDF не имеет координатной информации для целей извлечения текста. Другими словами, очень просто программно извлечь ВСЕ существующий текст из PDF-файла, но трудно извлечь текст из определенной зоны или региона. По этой причине OCR часто используется, даже если текст уже существует внутри, поскольку OCR возвращает текст с очень подробной информацией о местоположении и регионе, которые могут быть сопоставлены с координатами изображения.

Подсветка в формате PDF. Я считаю, вам придется либо перестроить новый PDF с определенной выделенной областью, либо создать собственный PDF-подобный просмотрщик, который будет веселить изображение и координаты, текст и выделенную область. Я бы пошел на второй вариант создания собственного зрителя, потому что у вас есть дополнительные возможности контроля над функциональностью и пользовательским интерфейсом. Ваш зритель может взять PDF в качестве входных данных и создать измененный PDF в качестве вывода, но по мере работы с документом он не должен быть PDF-файлом, хотя он может вести себя как PDF с точки зрения пользователя, но с добавленной функциональностью для взаимодействия.

Смежные вопросы