Я хотел бы классифицировать пиксели изображения на «улица» или «не улица». У меня есть данные обучения от KITTI dataset, и я видел, что у Caffe есть тип слоя IMAGE_DATA
. Этикетки находятся в виде изображений того же размера, что и входное изображение.Может ли Caffe классифицировать пиксели изображения напрямую?
Помимо Caffe, моей первой идеей решить эту проблему было предоставление графических патчей вокруг пикселя, которые должны быть классифицированы (например, 20 пикселей в верхнюю/левую/правую/нижнюю часть, в результате чего 41 × 41 = 1681 на пиксель Я хочу, чтобы классифицировать.
Однако, если бы я мог сказать, Caffe, как использовать этикетки без необходимости создавать эти заплатки изображения вручную (и тип слоя IMAGE_DATA
, кажется, предполагает, что это возможно), я предпочел бы, что.
Может ли Caffe классифицировать пиксели изображения напрямую? Как бы выглядела такая определение прототипной сети? Как мне предоставить информацию о методах Caffe?
Я предполагаю, что входной слой будет что-то вроде
layers {
name: "data"
type: IMAGE_DATA
top: "data"
top: "label"
image_data_param {
source: "path/to/file_list.txt"
mean_file: "path/to/imagenet_mean.binaryproto"
batch_size: 4
crop_size: 41
mirror: false
new_height: 256
new_width: 256
}
}
Однако я не уверен, что crop_size
точно означает. Это действительно сосредоточено? Как caffe обрабатывает угловые пиксели? Что такое new_height
и new_width
хорошо?
ваш вопрос очень большой в смысле, что он касается многих предметов. Можете ли вы «разбить» его на более мелкие вопросы? одна тема для вопроса? вы можете (и должны?) связывать вопросы, чтобы дать контекст. – Shai
См. Также: [Вопрос о группах Google] (https://groups.google.com/forum/?utm_medium=email&utm_source=footer#!msg/caffe-users/AjcfGsxpWrc/lu4YBhWrwA0J) –