2015-10-02 2 views
0

У меня есть доступ к сканеру в моей библиотеке, который может создавать «файлы PDF с возможностью поиска». Это PDF-файлы, которые показывают точное изображение отсканированного документа, но в PDF есть какой-то скрытый текст, который можно выбрать, когда вы пытаетесь выбрать часть изображения, содержащего текст. Таким образом вы можете копировать и вставлять текст или искать текст в отсканированном документе. Это ОЧЕНЬ полезно. Это потрясающее улучшение по сравнению с необработанными сканированными изображениями. У меня также есть несколько приложений на моем Mac, которые могут создавать этот PDF-файл с возможностью поиска из сканированного документа или необработанного изображения.Как редактировать текст поиска для PDF с возможностью поиска?

Теперь от тех, кто когда-либо использовал OCR, очевидно, что процесс преобразования изображений в текст не является на 100% точным, поэтому текст, который вы ищете или копируете, будет некорректен в некоторых местах.

Так что я ищу довольно долгое время, чтобы найти приложение, которое будет загружать PDF с возможностью поиска, и позволит мне восстановить скрытый текст с возможностью поиска без переформатирования или изменения исходного отсканированного изображения.

Кто-нибудь знает инструмент (или API-интерфейс библиотеки), который позволит это?

Здесь стоит сказать, что я попробовал последнюю версию Adobe Acrobat DC для Mac, и она, похоже, даже не позволяет мне просмотреть скрытый текст для поиска, а тем более отредактировать его. Это позволяет мне заменить сканированное изображение на результаты собственного процесса OCR, чтобы я мог редактировать и сохранять документ. Но это принесло бы ужасные результаты для любого из отсканированных документов, которые я использую. Кажется, он предназначен для редактирования «родного PDF», не редактирующего отсканированный документ.

Я также попробовал ABBYY FineReader без везения.

+0

Я надеюсь вскоре ответить на мой вопрос с заявлением о необходимости повторного сканирования исходного документа и исправить текст во время создания PDF с возможностью поиска. Я считаю, что есть инструменты, которые сделают это, но я еще не искал эту функцию. –

+0

'pdfedit' старость, но делает эту работу для меня. – arkascha

ответ

0

Я использую ABBYY FineReader 12 Professional. (не с открытым исходным кодом) Просто откройте отсканированное изображение или отсканированное pdf и нажмите «Проверить текст» (или Ctrl + F7), чем вы переходите на все орфографические ошибки или слабые символы и исправляете их.

Программа очень хорошая, она показывает вам точное место в изображении/pdf для исправления, а угадывание OCR бок о бок для удобства. Он повторяет их все.

[Кстати, я использую ярлыки для ускорения работы: Alt+Enter, чтобы добавить нераспознанное слово в словарь. Ctrl+Delete пропустить слово или подтвердить в случае, если вы зафиксировали его]

Чем сохранить документ как PDF-файл меню:. Файл> Сохранить документ как> PDF-файл, и вы можете искать его на каждом читателя PDF. Сохраненный файл выглядит так же, как и отсканированный, но «позади» его есть текст.

Странно, что вы попробовали ABBYY без везения ... это отлично работает для меня. возможно, вы пробовали не версию Professional.

Надеюсь, это поможет вам.

Смежные вопросы