2012-02-19 2 views
2

Im пытается распознать изображение (форму) и преобразовать в текст, в настоящее время используя данные egg.trained из google tesseract-ocr, и это отлично подходит для печатных символов и для ручного написания (написано вручную), я разработал подготовленные данные, и это отлично подходит для персонажей, которых я тренировал. nOw Я хочу объединить эти два подготовленных данных (tesseract-ocr + мои собственные данные), чтобы я мог распознавать как рукописные, так и печатные символы в одной форме, пожалуйста, дайте мне знать, как объединить эти два файла в один.Объединение двух данных, подготовленных OCR

ответ

5

Не нужно слить их. Tesseract 3.02 поддерживает распознавание нескольких языков - вы можете указать, например, «egg + eng + blah» как значение для опции -l.

+0

thx для ответа, im используя Tesseract 3.01, который не поддерживает упомянутую функцию, существует ли способ, которым я могу сделать то же самое в версии 3.1 или как загрузить tesseract, угадать, что это не оскорбительно. – optimus

+1

Вы можете проверить источник с http://code.google.com/p/tesseract-ocr/source/checkout и создать исполняемый файл 3.02. – nguyenq

+0

Thx для вашего времени, я пытался использовать SVN и пытаюсь загрузить, но он говорит, что не существует. Команда: Экспорт Ошибка: URL 'http://tesseract-ocr.googlecode.com/svn/trunk/%20tesseract-ocr-read-only' Ошибка: не существует Завершено !: – optimus

Смежные вопросы