Tesseract возвращает неанглийских символов

Недавно я провел несколько учебников по настройке Tesseract, и теперь я пытаюсь проверить, работает ли OCR правильно. Когда я делаю снимок и получаю текст, я иногда получаю неанглийские символы. На самом деле это похоже на тарабарщину. Я отправил пример выхода меня ниже:Tesseract возвращает неанглийских символов

; .'—--~_~:~ ear 
.::§—‘.::~__>‘Z~r'.‘ ,::-SES‘:3£a"3'§_“5.E.~ °?®.=_- 
.—_;%~‘=*c§u-5; H =—oc+-»o cn-5 '55:.

картина, которую я взял был на первой странице из исследовательской статьи в this ссылке. Я не знаю, почему это происходит. У меня есть файл eng.traineddata в подкаталоге tessdata.

источник

2013-07-23 AndroidDev93

есть две вещи, которые приходят на ум:

поезд тессеракт для шрифта, который используется в образе
редактировать изображение заранее
- оттенки серого
- размер
- расширение
- сглаживание
- Гауссово размывание
- ... и так далее

Для редактирования я могу рекомендовать ImageMagic.

источник

2013-07-23 06:48:06 sschrass

Tesseract возвращает неанглийских символов

ответ

Смежные вопросы