Tesseract - проблемы с OCR с шрифтами стиля пишущей машинки

Мы используем Tesseract.NET (и версию для Android), чтобы распознавать и извлекать данные документа. Он работал очень хорошо с Arial и Cambria шрифтов, но теперь мы должны признать документы так:Tesseract - проблемы с OCR с шрифтами стиля пишущей машинки

enter image description here

Тессеракт не может распознать его. Абсолютно ничего (кроме серийного номера большого размера в правом верхнем углу).

Мы пытались его обучить, но, возможно, это наша вина - это все еще нестабильно.

Что мы можем сделать?

(Btw шрифт является использование национальных ведомств, мы не можем получить его как истинный тип или другой формат шрифта.

источник

2015-04-08 boj

В нынешнем виде это очень трудно для инструмента OCR распознавать любые буквы.

Serif шрифты трудно ОРЗ.
письма очень близко друг к другу. Некоторые из них объединены.
словарь не какой-либо помощи.

Вы могли бы улучшить результат следующим:

Как это выглядит как свидетельство о регистрации транспортного средства, вы должны быть в состоянии предсказать позиции textstrings интереса, а затем они OCR раздельно.
Таким образом, используя опцию -psm=7 or 8 (предположим, что одна строка или слово).
Как некоторые строки, кажется, только цифры, вы можете помочь tesseract, используя аргумент digits.
Для буквенно-цифровых строк может помочь уменьшить словарь обрезку (или полностью удалить файлы DAWG.)
Если эти строки вроде «ETZ» или «MZ» являются сокращениями можно также построить словарь с теми.
Уменьшение желтого и зеленого цветов также является (простым) вариантом, который вы могли бы проверить.
Используйте штрих-код вместо того, чтобы пытаться использовать строку.

Для вопросов, связанных с tesseract, всегда помогает, если вы укажете используемую версию и, если вы выполните предварительную обработку изображения, предоставите образец изображения обработанного ввода.

источник

2015-04-10 15:08:49 tobltobs

Большое спасибо, мы попробуем. – boj

Tesseract - проблемы с OCR с шрифтами стиля пишущей машинки

ответ

Смежные вопросы