2016-11-02 3 views
1

Я работаю над OCR, с которым у меня работает, но теперь я зациклился на том, как отфильтровать результат OCR, чтобы переместить каждую строку в набор текстовых полей.Фильтрация результата OCR

Для примера, OCR Результат:

Имя: Jhon

No: 12345

Адрес: Канада

... но иногда он присваивает "Jhon" в текстовое поле «Адрес» или «Jhon» в текстовое поле «Нет».

ответ

1

Для данных, в которые включена контрольная сумма (как правило, номера банковских счетов), вы можете проверить контрольную сумму, и если вы действительно хотите очень низкие ложноположительные сбои, вам нужен вход видеопотока и продолжайте делать OCR в течение некоторого времени накапливаются несколько результатов. Когда большинство «контрольных сумм» являются одинаковыми, это, скорее всего, (99,5 +%) правильная строка.

Без видеопотока и кумулятивных результатов вы можете получить, вероятно, 97-99,5% с контрольной суммой данных.

Без контрольной суммы: ну вы не можете сказать.

Для таких полей, как «Нет», вы можете хотя бы отказаться от результатов в алфавитном порядке, а для «имени» вы можете оштрафовать числа (хотя я думаю, что есть некоторые неясные страны, где цифра в имени действительна?), В адресе вы можете дайте бонусную уверенность в результатах «alphabet_digit», а также со словарем всех строк улиц и городов, но в конце концов нет способа сказать, какой результат является более правильным, чем другие.

Опять же, при вводе видеопотока и накоплении нескольких результатов в течение более длительного периода времени (1-5 с) ​​может быть получено достаточно результатов для запуска некоторых статистических данных по ним, тогда, если у вас есть достаточно большой порог той же части результата, OCR, считать его «правильным».

Даже тогда надежность таких строк будет, вероятно, до 98%, более 90-95%, для общих текстов без подсказки (цифра/буква/размер/позиция) вы можете получить даже до 50-80% надежности диапазон (как целая строка, так как сам OCR имеет около 95-98% на один символ).

Смежные вопросы