2015-12-10 2 views
1

Я использовал Tesseract и обучил его с полным словом в качестве персонажа, как делает китайский OCR. Но это убивает меня, чтобы сделать мои собственные шрифты, и это требует много времени и медленного процесса. Этот подход хорош для некоторого сценария, но я хотел обучить tesseract, основанный на арабских персонажах.Арабский OCR в .Net

Или Предложите мне, который может помочь мне разработать мою собственную арабскую версию с Tesseract или без нее.

Я исследовал OpenCV, но он не прошел хорошо.

Я высоко оцениваю ваш быстрый ответ.

ответ

1

Tesseract имеет предварительно подготовленные файлы для большого количества языков, here - арабский.

+0

Я использовал Tesseract, я тренировал tesseract с арабскими символами по умолчанию, и его точная скорость очень меньше. вам нужно создать свой собственный файл шрифтов, а затем на основе этого вы будете тренировать tesseract для работы. Но таким образом, я всегда буду создавать новый шрифт и будет зависеть от него. Возможно создание шрифтов на основе символов, которые мы нашли из любого отсканированного документа? –

+0

Я думаю, вам нужно сначала найти, какой шрифт использовался для создания документа, так как для обучения в Tesseract вам требуется цифровое создание файлов с этим шрифтом. Вы можете прочитать о тренинге [link] (https://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3) здесь –

+0

Я уже прочитал эту статью, спасибо за обмен. Но я не хочу зависеть от шрифтов. –