В приложении OCR вы обычно находите компоненты, подключенные к изображению, и запускаете для них OCR-движок на этих компонентах для их распознавания.Символ OCR против обнаружения/распознавания несимволов
Мой вопрос в том, что делать, если ваши подключенные компоненты имеют символы/фигуры, которые существуют в вашем учебном наборе.
Например, если мы используем распознавание цифр, а изображение имеет прямую линию или символ, скажем «X» или что-то еще, что не является цифрой.
Как вы можете сказать, что это не цифра?
Ваша библиотека OCR, скорее всего, предоставит больше информации, чем ее догадка, например, насколько точна аппроксимация. Используйте эту информацию. – Tim
Если вы создаете свой собственный механизм распознавания или, по крайней мере, обучаете его, вы можете подумать о том, чтобы ввести несколько примеров «беспорядка», чтобы помочь системе сделать именно такое определение. – Predictor