2014-12-27 4 views
11

Я работаю над распознаванием OCR печатного текста. В частности, я фокусируюсь на шаге предварительной обработки, чтобы улучшить результаты двигателя Tesseract. Я уже получил хорошие результаты с адаптивным порогом, шумоподавлением, текстовым столом и т. Д. Но все же Tesseract, похоже, терпит неудачу, когда другие коммерческие продукты возвращают достойные результаты.Улучшение результатов распознавания Tesseract с размытым текстом

Я использовал следующее тестовое изображение, и вот результаты, полученные с помощью Tesseract 3.04 по сравнению с двумя коммерческими OCR-аписом. Все 3 службы были снабжены одним и тем же двоичным изображением, содержащим слегка размытый текст.

Text image used to compared the 3 OCR products

Тессеракт

Careers in Technology Consulting 

Networking Lunch 
21 m 2014, 11:00 - 14:30 

Definingthecorporatellstmtegy, Wammmwdngdeal, creating 
uniquebwinessisighnwilgbigdam-doesflismflxemmyouafioy? 

Findoutmoreabanhowitfeektomkasatedlflogymbyjoiningour 

for further mm please visit mAeloittexom/weers 

ABBYY Fine Reader Online

Careers in Technology Consulting 
Networking Lunch 
21 November 2014,1140-14:30 
Defining the corporate IT strategy, planning a multHnKon <Mar outsourcing deal, creating unique business insights using big data-doesthis sound Ifce something you enjoy? 
Find out more about hour it feels to work as a technology consultant by joining our exclusive networking lunch, 
For further information please visit wrwMuleloittexom/carcert 

Online OCR

Careers in Technology Consulting Networking Lunch 21 November 2014, 11;00 —14:30 
Defining the corporate IT strategy, planning a muiti-indlimi dollar outsourcing deal, creating unique business insights using big data—does this sound like something you enjoy? 
Find out more about how it feels to work as a tedmology consultant by joining our exclusive networking lunch, 
For further information' please visit wwwdeloitte,com/careers 

Теперь я задаюсь вопросом, возникает ли большой разрыв между Tesseract и другими двумя продуктами из-за другого механизма (наверняка ABBYY использует свой собственный движок, не уверен в веб-сервисе OCR) или есть некоторые другие шаги предварительной обработки, которые можно выполнить перед запуском Tesseract. Есть ли у вас какие-либо предложения?

+0

Как насчет проверки сообщения ooooold и принятия ответа? – Claudio

+0

Как насчет проверки сообщения ooooold и принятия ответа? – Claudio

ответ

2

Здесь предлагается «предварительная обработка OCR« магия ». Для того, чтобы объяснить принцип предлагаемой предварительной обработки идеи, давайте рассмотрим отрывок из предоставленного текст изображения, на котором все тестируемые OCRs не удался:

original image

и применить к нему некоторой «предобработке-мудрость» , Сначала обычно пороговая:

thresholded image

, а затем некоторые «магия», стреляя вертикальные линии через слово элементов, обнаружения макс. 2 пиксела высокие «стержни» и резки их на свои краях наряду с режущим словом-элемент вниз к его нижней строке:

after extracting "i"s

Теперь переключение с съемкой линий через слово-элементы в этом изображении от вертикального до горизонтальные, с тем чтобы обнаружить очень широкие полосы «» и разрезают их по вертикали в середине их ширины:

after splitting grown-together characters

Это должно помочь любой OCR-системой, чтобы обеспечить лучшие результаты на этом конкретном изображении. Я могу себе представить, что некоторые из коммерческих OCR-двигателей используют этот подход, уже способный обеспечить лучшее признание, чем те, которые были протестированы.

В этом контексте позвольте мне упомянуть о других свободных OCR-движках, доступных в репозиториях Ubuntu (сопоставимых с tesseract). Испытывая их друг против друга, вы можете еще больше узнать, как это получается, что они дают разные результаты, а затем заглядывают в их исходный код, чтобы знать :) и вывести из этого что-то о коммерческих.

sudo apt-get install cuneiform gocr ocrad 
Смежные вопросы