2010-04-16 2 views
1

Я использую tesseract-ocr (в .NET), который работает хорошо. Изображения, которые я пишу, это только ascii (A-z0-9). Есть ли способ, который я могу сказать, чтобы не использовать специальные символы?tesseract-ocr использовать ascii только?

+1

У этого есть активный форум, хорошее место, чтобы спросить: http://groups.google.com/group/tesseract-ocr/ –

ответ

0

Существует a new thread об этом вопросе на форуме Google, указанном выше. В первом ответе делается вывод, что, вероятно, это невозможно.

Насколько я знаю, это правильно, если вы используете файлы данных языка, которые упакованы вместе с Tesseract. Тем не менее, вы можете легко ограничить выходные символы, если вы training on your own box files. Это практически автоматическое: если unicharset_extractor не находит в файлах без символов ASCII, вы никогда не увидите символы, отличные от ASCII.

Я был так же расстроен всеми interpuncts и другими unusual characters в моем выпуске, когда я впервые начал использовать Tesseract, и обучение в моих собственных файлах ящиков решило проблему. Вы можете использовать Tesseract training data в качестве отправной точки.

0

используйте параметр конфигурации tessedit_char_whitelist.

Смежные вопросы