2013-07-28 2 views
0

В настоящее время у меня есть список каждой буквы, заглавной буквы в алфавите. Шрифт постоянный, т. Е. Мои входы всегда будут одного и того же шрифта.Размер выборки для распознавания изображений. Чем больше размер выборки, необходимый для объектов, которые являются эквивалентными изображениями?

Учитывая, что шрифт постоянный, мне действительно нужно несколько букв или я могу обучить программу, используя по 1 букве каждый? Если мне нужно несколько изображений для каждой буквы, могу ли я просто запустить одно и то же изображение с помощью алгоритма машинного обучения и сделать вид, что это второе изображение? (обратите внимание, что, поскольку шрифты одинаковы, второе изображение будет точно таким же).

Очень много работы, чтобы «распечатать экран», а затем захватить конкретную букву по одному, поэтому я в основном задаюсь вопросом, могу ли я просто скопировать и вставить все изображения 50 раз, чтобы сделать мой размер 52 образца 2600 размер выборки.

Я использую scikit-learn на python и буду тестировать различные контролируемые algos обучения, чтобы распознавать буквы.

ответ

0

OCR не только должен различать разные буквы, но и бороться с такими проблемами, как небольшие повороты, переводы или деформации.

Полезная нейронная сеть (общая модель для OCR) должна быть обучена против помеченных данных, включающих эти преобразования. Возможно, вам удастся начать с одного изображения на букву и программно вращать и переводить его с шагом, чтобы создать множество обозначенных примеров обучения.

В этом случае для «оригинальных» примеров вы можете визуализировать отдельные буквы с нужным шрифтом и сохранять их в файл, а не использовать литеральный захват экрана.

+0

Я не понимаю, почему мне нужно иметь дело с вращениями, другими преобразованиями и т. Д., Потому что таких деформаций не будет, поскольку вход всегда совпадает с шрифтом и размером. Что касается не использования литерального захвата экрана, письма предоставляются мне как скриншот, поэтому у меня нет выбора. Итак, вопрос остается ... могу ли я использовать только 52 из тех же примеров, которые умножаются, скажем, по 50 раз? –

+0

Это зависит от вашего приложения. Классическое/оригинальное приложение OCR распознает почтовые коды почтовых почтовых рассылок. Там конверт не может находиться под камерой точно прямо (вращение), может быть выключен в одну сторону (перевод), или запись может быть неаккуратной (другие деформации). Если это звучит так, как вы, то вам понадобятся учебные примеры эти. Если это не так, то, возможно, вы этого не сделаете. – phs

Смежные вопросы