Есть ли бесплатная библиотека OCR, которая может извлекать текст, а также обнаруживать некоторые маркировки текста? Я понимаю, что это чрезвычайно неопределенное предложение, и такая функциональность будет сильно зависеть от того, какой тип «маркировки» я хочу обнаружить.Текст OCR + маркировка
Но насколько я могу судить, такая вещь даже не существует, за исключением нескольких коммерческих пакетов, которые утверждают, что конвертируют отсканированные страницы в редактируемые файлы, сохраняя при этом некоторое подобие исходного макета страницы. Я ищу скорее для БИБЛИОТЕКИ, с которой я программирую.
Моя Конкретное применение такой библиотеки будет так:
- Печать страницы.
- Используйте карандаш, чтобы подчеркнуть ключевые слова.
- Просмотрите страницу.
- Запустите программу, которая преобразует изображение отсканированной страницы в некоторый текстовый формат, который отмечает каждое подчеркнутое слово. Например, файл RTF, в котором выделено выделенное карандашом слово.
Вы уверены, что хотите использовать OCR? если у вас есть оригинальный документ, доступный для вас, я думаю, что это открывает гораздо более простые места ... – Jasper
Вы имеете в виду под руку человека? Конечно, но я спрашиваю об функциональности AUTOMATIC. – themirror
Нет. Я имею в виду, если у вас есть доступный цифровой документ document (вы все-таки говорите о его печати), вы можете делать вещи проще AUTOMATICALLY. – Jasper