Я создал базовое приложение для распознавания текста с помощью Tesseract API от Google и интегрировал его с моим приложением для камеры. Он работает нормально, но единственной проблемой является точность, так как иногда текст распознается как случайный набор символов, и я думаю, что точность составляет около 50 процентов.Как повысить точность текста OCR от Tesseract?
Кроме того, при попытке сканирования более четырех слов на изображении приложение выходит из строя.
String ocrText = baseApi.getUTF8Text();
baseApi.end();
где baseApi
является объектом класса API Тессеракт.
Нужно ли использовать другую структуру данных для сохранения распознанного текста или есть какая-то другая причина, почему более четырех слов не распознаются?
Все, что вам нужно лучше OCR-двигатель – Tomato