Распознать цветной текст с помощью Tesseract (Tess4J)

Im работает с распознаванием текста с Java и Tess4J. Im распознает черные и красные изображения (отдельно), как на белом фоне, так и очень четко. С черными они прекрасно работают, но с красными, tesseract просто сходит с ума. Я попытался добавить переменную ("editor_image_text_color", "RED"), но это совсем не помогает. Прямо сейчас, что я делаю для красных, просматриваю изображение целиком и устанавливаю каждый красный пиксель на черный, что я считаю очень неэффективным, потому что мне нужно несколько вычислений для каждого пикселя, из-за того, что изображения имеют разную интенсивность красного, что Я должен сохранить. Спасибо большое!Распознать цветной текст с помощью Tesseract (Tess4J)

Например: http://imageshack.us/photo/my-images/593/3eu9.png/ это всегда дает мне 9, но http://imageshack.us/photo/my-images/818/efxf.png/ не делает этого, как если бы он теряет номер в предварительной обработке, так как черные работают очень хорошо, но красные Арент лучше, чем случайное число.

источник

2013-09-14 Juan

Было бы неплохо увидеть образцы изображений. Звучит немного странно, потому что Tesseract делает бинаризацию перед обработкой изображения (это, как я понял, это именно то, что вы делаете вручную) –

И вы, может быть, знаете, почему бинаризация может завершиться неудачей? Я думаю, что картинки очень четкие, хотя размер низкий (но я думаю, это ничего необычного для OCR) – Juan

Можете ли вы настроить порог процесса бинаризации? Мог бы помочь ... – haraldK

Попробуйте преобразовать цветное изображение в оттенки серого с помощью метода ImageHelper.convertImageToGrayscale(BufferedImage image).

источник

2013-09-14 18:00:54 nguyenq

Спасибо за ответ nguyenq, я попробовал эту функцию, и это не очень хорошо работает, но после проверки этого класса ImageHelper, я использовал метод:

ImageHelper.convertImageToBinary(BufferedImage image)

и она работает очень хорошо, спасибо !

источник

2013-09-15 10:40:49 Juan

Мое намерение заключалось в том, чтобы алгоритм порога Tesseract для создания двоичного изображения из оттенков серого, но ваш выбор имел смысл b/c, изображение было битоновым (красным и белым). Рад, что это сработало для вас. – nguyenq

Распознать цветной текст с помощью Tesseract (Tess4J)

ответ

Смежные вопросы