У меня есть изображение, как этотТессеракт OCR дает перекос выходного текста
SOME STUFF HERE
DEPARTMENT OF PATHOLOGY
Name : MR. V. HUGO Age/Sex : 31 Y(s)/Male
Bill Date : 28-Apr-2016 08:48 AM UMR No : ODC61995
Sample Date : 28-Apr-2016 09:38 AM Bill No : BIL130579
Report Date : 28-Apr-2016 04:21 PM Result No : RES378704
AND SOME MORE STUFF HERE
Это изображение имеет прямоугольную форму, где длина больше, чем ширина. Я обрезать выше изображение к той части изображения, которое мне нужно прочитать, и это выглядит, как этот
Name : MR. V. HUGO Age/Sex : 31 Y(s)/Male
Bill Date : 28-Apr-2016 08:48 AM UMR No : ODC61995
Sample Date : 28-Apr-2016 09:38 AM Bill No : BIL130579
Report Date : 28-Apr-2016 04:21 PM Result No : RES378704
В обрезанного изображения ширина больше, чем длина. Но я получаю несоответствие
Name
Bill Date
Sample Date
Report Date
MR. V. HUGO
28-Apr-2016 08:48 AM
28-Apr-2016 09:38 AM
28-Apr-2016 04:21 PM
Age/Sex
UMR No
Bill No
Result No
31 Y(s)/Male
ODC61995
BIL130579
RES378704
Может кто-нибудь объяснить, почему это происходит? Без обрезки выход выравнивается правильно, но ошибки больше. Моя идея - запустить OCR Tesseract только на соответствующей части изображения. Я получаю тот же результат с оболочкой Python и без нее.
P.S. - Я получаю смещенный результат, аналогичный выше, также, когда я применяю эрозию/расширение к изображению, но не обрезаю, прежде чем передавать его Tesseract.