2014-01-03 4 views
0

(я отвечу на свой вопрос здесь для общих знаний)Tesseract hOCR: Как обнаружить с ног на голову?

В Tesseract OCR, как вы обнаруживаете изображение, перевернутое вверх?
Люди, которые работали с Tesseract, могут или не могут знать, что Tesseract может читать изображения, которые представлены с ног на голову.
Проблема заключается в том, что вы не знаете, что она перевернута, если вы используете выход hOCR, как нигде в документе сказано.

Итак, как его обнаружить?

ответ

-1

После двойной проверки я заметил, что это действительно не прямо в выходе hOCR, я бы ожидал, что какой-то атрибут в div обозначит ориентацию.

То, что я понял, что вы можете прочитать у-значения ограничительной рамки всех ocr_carea на одной странице:

  • Если значения идут от низкой до высокой, то страница в нормальная ориентация.
  • Если значения идут от высокого к низкому, страница перевернута.

Это может работать или не работать при вращении на 90 и 270 градусов, но вполне возможно, что вы видите аналогичную модель для значения x.

Смежные вопросы