У меня есть доступ к сканеру в моей библиотеке, который может создавать «файлы PDF с возможностью поиска». Это PDF-файлы, которые показывают точное изображение отсканированного документа, но в PDF есть какой-то скрытый текст, который можно выбрать, когда вы пытаетесь выбрать часть изображения, содержащего текст. Таким образом вы можете копировать и вставлять текст или искать текст в отсканированном документе. Это ОЧЕНЬ полезно. Это потрясающее улучшение по сравнению с необработанными сканированными изображениями. У меня также есть несколько приложений на моем Mac, которые могут создавать этот PDF-файл с возможностью поиска из сканированного документа или необработанного изображения.Как редактировать текст поиска для PDF с возможностью поиска?
Теперь от тех, кто когда-либо использовал OCR, очевидно, что процесс преобразования изображений в текст не является на 100% точным, поэтому текст, который вы ищете или копируете, будет некорректен в некоторых местах.
Так что я ищу довольно долгое время, чтобы найти приложение, которое будет загружать PDF с возможностью поиска, и позволит мне восстановить скрытый текст с возможностью поиска без переформатирования или изменения исходного отсканированного изображения.
Кто-нибудь знает инструмент (или API-интерфейс библиотеки), который позволит это?
Здесь стоит сказать, что я попробовал последнюю версию Adobe Acrobat DC для Mac, и она, похоже, даже не позволяет мне просмотреть скрытый текст для поиска, а тем более отредактировать его. Это позволяет мне заменить сканированное изображение на результаты собственного процесса OCR, чтобы я мог редактировать и сохранять документ. Но это принесло бы ужасные результаты для любого из отсканированных документов, которые я использую. Кажется, он предназначен для редактирования «родного PDF», не редактирующего отсканированный документ.
Я также попробовал ABBYY FineReader без везения.
Я надеюсь вскоре ответить на мой вопрос с заявлением о необходимости повторного сканирования исходного документа и исправить текст во время создания PDF с возможностью поиска. Я считаю, что есть инструменты, которые сделают это, но я еще не искал эту функцию. –
'pdfedit' старость, но делает эту работу для меня. – arkascha