Текст OCR + маркировка

Есть ли бесплатная библиотека OCR, которая может извлекать текст, а также обнаруживать некоторые маркировки текста? Я понимаю, что это чрезвычайно неопределенное предложение, и такая функциональность будет сильно зависеть от того, какой тип «маркировки» я хочу обнаружить.Текст OCR + маркировка

Но насколько я могу судить, такая вещь даже не существует, за исключением нескольких коммерческих пакетов, которые утверждают, что конвертируют отсканированные страницы в редактируемые файлы, сохраняя при этом некоторое подобие исходного макета страницы. Я ищу скорее для БИБЛИОТЕКИ, с которой я программирую.

Моя Конкретное применение такой библиотеки будет так:

Печать страницы.
Используйте карандаш, чтобы подчеркнуть ключевые слова.
Просмотрите страницу.
Запустите программу, которая преобразует изображение отсканированной страницы в некоторый текстовый формат, который отмечает каждое подчеркнутое слово. Например, файл RTF, в котором выделено выделенное карандашом слово.

источник

2012-02-04 themirror

Вы уверены, что хотите использовать OCR? если у вас есть оригинальный документ, доступный для вас, я думаю, что это открывает гораздо более простые места ... – Jasper

Вы имеете в виду под руку человека? Конечно, но я спрашиваю об функциональности AUTOMATIC. – themirror

Нет. Я имею в виду, если у вас есть доступный цифровой документ document (вы все-таки говорите о его печати), вы можете делать вещи проще AUTOMATICALLY. – Jasper

Лучшим бесплатным инструментом OCR, вероятно, остается Tesseract. Вам нужно будет изменить код самостоятельно, чтобы определить позиционирование вашей маркировки относительно отсканированного текста.

Когда я последний раз проверял пару лет назад, хорошие, бесплатные, OCR-библиотеки были тонкими на земле. Даже закрытое предложение источника обычно не стоит беспокоить, если вы не хотите потратить $$$ на них.

источник

2012-02-04 23:34:26 John

Текст OCR + маркировка

ответ

Смежные вопросы