2012-02-04 2 views
0

Есть ли бесплатная библиотека OCR, которая может извлекать текст, а также обнаруживать некоторые маркировки текста? Я понимаю, что это чрезвычайно неопределенное предложение, и такая функциональность будет сильно зависеть от того, какой тип «маркировки» я хочу обнаружить.Текст OCR + маркировка

Но насколько я могу судить, такая вещь даже не существует, за исключением нескольких коммерческих пакетов, которые утверждают, что конвертируют отсканированные страницы в редактируемые файлы, сохраняя при этом некоторое подобие исходного макета страницы. Я ищу скорее для БИБЛИОТЕКИ, с которой я программирую.

Моя Конкретное применение такой библиотеки будет так:

  1. Печать страницы.
  2. Используйте карандаш, чтобы подчеркнуть ключевые слова.
  3. Просмотрите страницу.
  4. Запустите программу, которая преобразует изображение отсканированной страницы в некоторый текстовый формат, который отмечает каждое подчеркнутое слово. Например, файл RTF, в котором выделено выделенное карандашом слово.
+0

Вы уверены, что хотите использовать OCR? если у вас есть оригинальный документ, доступный для вас, я думаю, что это открывает гораздо более простые места ... – Jasper

+0

Вы имеете в виду под руку человека? Конечно, но я спрашиваю об функциональности AUTOMATIC. – themirror

+0

Нет. Я имею в виду, если у вас есть доступный цифровой документ document (вы все-таки говорите о его печати), вы можете делать вещи проще AUTOMATICALLY. – Jasper

ответ

0

Лучшим бесплатным инструментом OCR, вероятно, остается Tesseract. Вам нужно будет изменить код самостоятельно, чтобы определить позиционирование вашей маркировки относительно отсканированного текста.

Когда я последний раз проверял пару лет назад, хорошие, бесплатные, OCR-библиотеки были тонкими на земле. Даже закрытое предложение источника обычно не стоит беспокоить, если вы не хотите потратить $$$ на них.

Смежные вопросы