2015-02-19 2 views
-2

У меня есть требование проанализировать точность OCR результата, обработанного библиотекой OCR в приложении. В соответствии с контекстом приложения я предпочитаю использовать измерение точности символов вместо слов.Методика измерения точности измерения точности символов OCR

Поэтому я считаю, что общее количество ошибок должно быть добавлением вставленных символов, замененных символов и удаленных символов в определенной строке. Тогда процент процента может быть рассчитан против общего числа для правильных символов в строке.

Может кто-нибудь предложить алгоритм или ключ для вычисления этой Точности.

ответ

2

Вы можете ознакомиться с этими ссылками с научными публикациями о точности алгоритмов распознавания.

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.42.5435&rep=rep1&type=pdf http://www.dlib.org/dlib/march09/holley/03holley.html

Это вполне обычно у вас есть скорость доверия OCR алгоритмов, а также. Если проверить питон-Tesseract, например (C++ на основе) есть норма доверия к несильно

Python:

`api.MeanTextConf()` 

C++:

` 
Pix *image = pixRead("/usr/src/tesseract-3.02/phototest.tif"); 
    tesseract::TessBaseAPI *api = new tesseract::TessBaseAPI(); 
    api->Init(NULL, "eng"); 
    api->SetImage(image); 
    Boxa* boxes = api->GetComponentImages(tesseract::RIL_TEXTLINE, true, NULL, NULL); 
    printf("Found %d textline image components.\n", boxes->n); 
    for (int i = 0; i < boxes->n; i++) { 
    BOX* box = boxaGetBox(boxes, i, L_CLONE); 
    api->SetRectangle(box->x, box->y, box->w, box->h); 
    char* ocrResult = api->GetUTF8Text(); 
    ***//CONFIDENCE RATE 
    int conf = api->MeanTextConf();*** 
    fprintf(stdout, "Box[%d]: x=%d, y=%d, w=%d, h=%d, confidence: %d, text: %s", 
        i, box->x, box->y, box->w, box->h, conf, ocrResult); 
    }` 

Это может работать для вас.

С наилучшими пожеланиями

Смежные вопросы