Представление данных изображения для распознавания

Итак, я работаю над проектом для школы, и то, что мы пытаемся сделать, - научить нейронную сеть распознавать здания из нестроек. Проблема, с которой я сейчас сталкиваюсь, представляет данные в форме, которые будут «читаемыми» функцией классификатора.Представление данных изображения для распознавания

Данные обучения - это куча изображений + .wkt с координатами зданий на картинке. До сих пор нам удалось перемасштабировать полигоны, но любопытство застряло там.

Можете ли вы дать какие-либо намеки или идеи о том, как привести все это в соответствующую форму?

Редактировать: Мне не нужен код, написанный для меня, ссылка на статью на аналогичную тему или книгу - это больше вещей, которые я ищу.

источник

2017-02-05 bobob

Добро пожаловать в переполнение стека! Этот сайт не является службой написания кода. Какой код вы уже пробовали? Пройдите [тур] (http://stackoverflow.com/tour), [справочный центр] (http://stackoverflow.com/help) и [как задать хороший вопрос] (http: // stackoverflow.com/help/how-to-ask), чтобы увидеть, как работает этот сайт, и помочь вам улучшить ваши текущие и будущие вопросы, которые помогут вам получить более качественные ответы. –

Вы не указали, какие рамки вы используете, но я дам ответ для кофе.

Ваша проблема очень близка к обнаружению объектов внутри изображения. У вас есть полные изображения с ограничительными рамками объекта (здание в вашем случае).

Самый простой способ сделать это - через слой данных python, который считывает изображение и файл с сохраненными координатами для этого изображения и передает его в вашу сеть. Учебник о том, как его использовать, можно найти здесь: https://github.com/NVIDIA/DIGITS/tree/master/examples/python-layer Чтобы ускорить процесс, вы можете захотеть сохранить изображение, координировать пары в своей пользовательской базе данных lmdb.

Наконец хороший рабочий пример с полной реализацией Caffe можно найти в Faster-RCNN библиотеки здесь: https://github.com/rbgirshick/caffe-fast-rcnn/ Вы должны проверить roi_pooling_layer.cpp в их таможенной Caffe отрасли и roi_data_layer о том, как данные подаются в сеть.

источник

2017-02-05 23:43:03 magicharp

Большое спасибо, я посмотрю на это. – bobob

Представление данных изображения для распознавания

ответ

Смежные вопросы