Tesseract OCR engine иногда выводит текст, который не имеет смысла, я хочу разработать алгоритм, который пренебрегает любым текстом или словом, не имеющим смысла, ниже - это какой-то выходной текст, который я хочу игнорировать, мое простое решение - подсчитать слова в распознанном тексте, разделенные символом «», и текст, в котором слишком много слов, будет мусором (подсказка: я сканирую изображения, которые в большинстве случаев содержат 40 слов) любая идея будет полезна, спасибо.Как игнорировать вывод OCR Engine, который не имеет значения?
wo:>"|axnoA1wvw\
ldflfig
°J!9O‘ !P99W M9N 6 13!-|15!Cl ‘I-/Vl
978 89l9 Z0 3+ 3 'l9.l.
97 999 VLL lLOZ+ 3 9l!q°lN
wo0'|axno/(@|au1e>1e: new;
1=96r2a1ey\1 1uauud0|e/\e(]
|8UJB){ p8UJL|\7'
Очень широкий вопрос. Во-первых, откуда вы знаете, не имеет ли смысл текст или слово? (т. е. у вас есть идеальный словарь?). Как вы объясняете местные ошибки? Например. Если «ДВИГАТЕЛЬ» читается как «ENGTINE», вы полностью отбрасываете его? Я могу продолжать и продолжать. – ElKamina
Я обновил свой вопрос – chostDevil
Вы можете искать слишком много последовательных символов или комбинаций букв подряд, которые не встречаются на языке текста, вместо того, чтобы смотреть на длину слова. 1-3 буквенных слова вряд ли будут написаны с ошибками или с другого языка, поэтому словарь может помочь им. – Benjamin