2012-04-03 2 views
2

Я пытаюсь использовать OCR SDK на PHP с ABBYY.com для распознавания визитных карточек. У меня есть следующий код, чтобы проверить, как он работает. Когда я выполняю код, я получаю пустой вывод. Где я мог ошибаться в коде?ABBYY OCR SDK: Я пытаюсь создать образец скрипта для распознавания визитных карточек, но не получаю никакого вывода

 

$applicationId = "MyBusinessCardReader"; 
$password = "password"; 
$filename = "businesscard.jpg"; 
$localDir = dirname(__FILE__); 
$url = "http://cloud.ocrsdk.com/processBusinessCard"; 

$c = curl_init(); 
curl_setopt($c, CURLOPT_URL, $url); 
curl_setopt($c, CURLOPT_RETURNTRANSFER, 1); 
curl_setopt($c, CURLOPT_USERPWD, "$applicationId:$password"); 
curl_setopt($c, CURLOPT_POST, 1); 

$post_array = array(
    "my_file" => "@$localDir$filename" 
); 

curl_setopt($c, CURLOPT_POSTFIELDS, $post_array); 
$response = curl_exec($c); 
curl_close($c); 

echo "<pre>"; 
echo $response; 
echo "</pre>"; 

выборочное визитная карточка изображение можно увидеть на http://test.goje87.com/vangal/businesscard.jpg

ответ

2

Я не знаю много о Abbyy SDK. Но прежде чем пытаться любой OCR двигателя на изображении, вы всегда должны убедиться, что ...

  • ... растениеводство все границы с различной окраской,
  • ... масштабировать изображение так, чтобы получить ваш текст до (виртуального) размера не менее 10 pt за 300 DPI.

Я пробовал Tesseract v3.01 против вашего оригинального образца, и он ничего не нашел.

Затем я применил команду ImageMagick обрезать границы и масштабировать изображение до 200%, как это:

convert     \ 
    businesscard.jpg \ 
    -crop 440x200+30+120 \ 
    -scale 180%   \ 
    cropped+scaled-businesscard.jpg 

, чтобы получить эту картину:

Cropped businesscard

Это уже позволяет командную строку Тессеракта в признают большую часть текста (он не работает на @ и .):

tesseract b.jpg bcard && cat bcard.txt 

    Tesseract Open Source OCR Engine v3.01 with Leptonica 

    Fe/<70" 
    MIKE FARAG 
    PH 913 284 6455 
    EM milzeocreatefervoncom 
    Tw 0mil<efarag01 
    createfervoncom 

Можно скорее получить процент признания Тессеракта близка к 100%, если бы я ...

  • ... улучшить качество изображения для распознавания целей: увеличение контрастности и конвертировать в чистом оттенки серого («бинаризации»);
  • ... «train» Tesseract по определенному шрифту, используемому в этом документе.

Я предполагаю, что вы можете сделать жизнь проще Abbyy подобными мерами ...

Смежные вопросы