2016-11-28 3 views
0

У меня есть изображение, как этотТессеракт OCR дает перекос выходного текста

SOME STUFF HERE 

        DEPARTMENT OF PATHOLOGY 

Name  : MR. V. HUGO     Age/Sex  : 31 Y(s)/Male 

Bill Date : 28-Apr-2016 08:48 AM   UMR No  : ODC61995 

Sample Date : 28-Apr-2016 09:38 AM   Bill No  : BIL130579 

Report Date : 28-Apr-2016 04:21 PM   Result No : RES378704 


AND SOME MORE STUFF HERE 

Это изображение имеет прямоугольную форму, где длина больше, чем ширина. Я обрезать выше изображение к той части изображения, которое мне нужно прочитать, и это выглядит, как этот

Name  : MR. V. HUGO     Age/Sex  : 31 Y(s)/Male 

Bill Date : 28-Apr-2016 08:48 AM   UMR No  : ODC61995 

Sample Date : 28-Apr-2016 09:38 AM   Bill No  : BIL130579 

Report Date : 28-Apr-2016 04:21 PM   Result No : RES378704 

В обрезанного изображения ширина больше, чем длина. Но я получаю несоответствие

Name 
Bill Date 
Sample Date 
Report Date 

MR. V. HUGO 
28-Apr-2016 08:48 AM 
28-Apr-2016 09:38 AM 
28-Apr-2016 04:21 PM 

Age/Sex 
UMR No 
Bill No 
Result No 

31 Y(s)/Male 
ODC61995 
BIL130579 
RES378704 

Может кто-нибудь объяснить, почему это происходит? Без обрезки выход выравнивается правильно, но ошибки больше. Моя идея - запустить OCR Tesseract только на соответствующей части изображения. Я получаю тот же результат с оболочкой Python и без нее.

P.S. - Я получаю смещенный результат, аналогичный выше, также, когда я применяю эрозию/расширение к изображению, но не обрезаю, прежде чем передавать его Tesseract.

ответ

0

Проблема связана с автоматической сегментацией страниц, выполняемой Tesseract. Сохраняйте значение режима сегментации страницы как 4 или PSM_SINGLE_COLUMN.

tesseract example.jpg out -l eng -psm 4 
Смежные вопросы