2017-02-09 3 views
0

Я использую tesseract для получения текста с изображения, меня интересуют только цифры. Я обучил tesseract и создал новый язык, который является точным шрифтом на изображении, а данные обучения включают только числа. В данных обучения я также включил все возможные значения, которые были бы в изображение, 1-5000, чтобы быть конкретным, а также создал список слов из этих же значений. Однако он по-прежнему смешивается с 1 и 7, а иногда и с 3 и 8. Есть ли у кого-нибудь какие-либо рекомендации относительно того, следует ли переучиваться по-другому или выполнять некоторую обработку изображения перед тем, как передать его tesseract?Tesseract смешивание «1» и «7», несмотря на обучение по точному шрифту

+0

Можно отредактировать, чтобы добавить образ образца, команду tesseract и выход, чтобы помочь в понимании вашей проблемы? – thewaywewere

ответ

1
  1. Убедитесь, что в тексте обучения, который вы предоставляете tesseract, должно быть не менее 20 экземпляров каждого персонажа. Я даю по крайней мере 6 страниц того же шрифта, чтобы иметь приличный размер выборки для обучения.

2.Tesseract Text Recognition также зависит от качества изображения. Проверьте возможные алгоритмы предварительной обработки, которые вы можете использовать: Improve Quality of Tesseract

  1. Посмотрите файл number_dawg. Модификация может помочь распознать цифры.
Смежные вопросы