2015-04-08 4 views
0

Мы используем Tesseract.NET (и версию для Android), чтобы распознавать и извлекать данные документа. Он работал очень хорошо с Arial и Cambria шрифтов, но теперь мы должны признать документы так:Tesseract - проблемы с OCR с шрифтами стиля пишущей машинки

enter image description here

Тессеракт не может распознать его. Абсолютно ничего (кроме серийного номера большого размера в правом верхнем углу).

Мы пытались его обучить, но, возможно, это наша вина - это все еще нестабильно.

Что мы можем сделать?

(Btw шрифт является использование национальных ведомств, мы не можем получить его как истинный тип или другой формат шрифта.

ответ

2

В нынешнем виде это очень трудно для инструмента OCR распознавать любые буквы.

  • Serif шрифты трудно ОРЗ.
  • письма очень близко друг к другу. Некоторые из них объединены.
  • словарь не какой-либо помощи.

Вы могли бы улучшить результат следующим:

  • Как это выглядит как свидетельство о регистрации транспортного средства, вы должны быть в состоянии предсказать позиции textstrings интереса, а затем они OCR раздельно.
  • Таким образом, используя опцию -psm=7 or 8 (предположим, что одна строка или слово).
  • Как некоторые строки, кажется, только цифры, вы можете помочь tesseract, используя аргумент digits.
  • Для буквенно-цифровых строк может помочь уменьшить словарь обрезку (или полностью удалить файлы DAWG.)
  • Если эти строки вроде «ETZ» или «MZ» являются сокращениями можно также построить словарь с теми.
  • Уменьшение желтого и зеленого цветов также является (простым) вариантом, который вы могли бы проверить.
  • Используйте штрих-код вместо того, чтобы пытаться использовать строку.

Для вопросов, связанных с tesseract, всегда помогает, если вы укажете используемую версию и, если вы выполните предварительную обработку изображения, предоставите образец изображения обработанного ввода.

+0

Большое спасибо, мы попробуем. – boj

Смежные вопросы