Im работает с распознаванием текста с Java и Tess4J. Im распознает черные и красные изображения (отдельно), как на белом фоне, так и очень четко. С черными они прекрасно работают, но с красными, tesseract просто сходит с ума. Я попытался добавить переменную ("editor_image_text_color", "RED"), но это совсем не помогает. Прямо сейчас, что я делаю для красных, просматриваю изображение целиком и устанавливаю каждый красный пиксель на черный, что я считаю очень неэффективным, потому что мне нужно несколько вычислений для каждого пикселя, из-за того, что изображения имеют разную интенсивность красного, что Я должен сохранить. Спасибо большое!Распознать цветной текст с помощью Tesseract (Tess4J)
Например: http://imageshack.us/photo/my-images/593/3eu9.png/ это всегда дает мне 9, но http://imageshack.us/photo/my-images/818/efxf.png/ не делает этого, как если бы он теряет номер в предварительной обработке, так как черные работают очень хорошо, но красные Арент лучше, чем случайное число.
Было бы неплохо увидеть образцы изображений. Звучит немного странно, потому что Tesseract делает бинаризацию перед обработкой изображения (это, как я понял, это именно то, что вы делаете вручную) –
И вы, может быть, знаете, почему бинаризация может завершиться неудачей? Я думаю, что картинки очень четкие, хотя размер низкий (но я думаю, это ничего необычного для OCR) – Juan
Можете ли вы настроить порог процесса бинаризации? Мог бы помочь ... – haraldK