2013-07-23 7 views
1

Недавно я провел несколько учебников по настройке Tesseract, и теперь я пытаюсь проверить, работает ли OCR правильно. Когда я делаю снимок и получаю текст, я иногда получаю неанглийские символы. На самом деле это похоже на тарабарщину. Я отправил пример выхода меня ниже:Tesseract возвращает неанглийских символов

; .'—--~_~:~ ear 
.::§—‘.::~__>‘Z~r'.‘ ,::-SES‘:3£a"3'§_“5.E.~ °?®.=_- 
.—_;%~‘=*c§u-5; H =—oc+-»o cn-5 '55:. 

картина, которую я взял был на первой странице из исследовательской статьи в this ссылке. Я не знаю, почему это происходит. У меня есть файл eng.traineddata в подкаталоге tessdata.

ответ

1

есть две вещи, которые приходят на ум:

  • поезд тессеракт для шрифта, который используется в образе
  • редактировать изображение заранее
    • оттенки серого
    • размер
    • расширение
    • сглаживание
    • Гауссово размывание
    • ... и так далее

Для редактирования я могу рекомендовать ImageMagic.

Смежные вопросы