11

Как известно, современный самый популярный CNN (сверточная нейронная сеть): VGG/RESNET (FasterRCNN), SSD, Yolo, Yolo v2, DenseBox, DetectNet - не вращается инвариант: Are modern CNN (convolutional neural network) as DetectNet rotate invariant?Почему ротационно-инвариантные нейронные сети не используются в победителях популярных конкурсов?

Также известно, что существует несколько нейронные сети с обнаружением объекта Rotate-инвариантность:

  1. вращательно-инвариантная Neoperceptron 2006 (PDF): https://www.researchgate.net/publication/224649475_Rotation-Invariant_Neoperceptron

  2. Изучение вращения инвариантных сверточных фильтров для классификации текстур 2016 (PDF): https://arxiv.org/abs/1604.06720

  3. RIFD-CNN: Вращение-инвариантные и Фишер дискриминационный сверточные нейронные сети для обнаружения объекта 2016 (PDF): http://www.cv-foundation.org/openaccess/content_cvpr_2016/html/Cheng_RIFD-CNN_Rotation-Invariant_and_CVPR_2016_paper.html

  4. Закодированной инвариантность в сверточноге нейронных сетях 2014 (PDF)

  5. Ротационно-инвариантные сверточные нейронные сети для прогнозирования морфологии галактик (PDF): https://arxiv.org/abs/1503.07077

  6. обучение Rotation-Инвариантная сверточные нейронные сети для обнаружения объектов в VHR оптических изображений дистанционного зондирования 2016 года: http://ieeexplore.ieee.org/document/7560644/

Мы знаем, что в таких соревнованиях изображений обнаружения как: IMAGE-NET, MSCOCO, PASCAL ЛОС - используются сети ансамбли (одновременно некоторые нейронные сети). Или сетевые ансамбли в единой сети, такие как ResNet (Residual Networks Behave Like Ensembles of Relatively Shallow Networks)

Но используются ротационно-инвариантные сетевые ансамбли в победителях, таких как MSRA, а если нет, то почему? Почему в ансамбле дополнительная чередово-инвариантная сеть не добавляет точности для обнаружения определенных объектов, таких как объекты самолетов, - какие изображения выполняются под разными углами поворота?

Это может быть:

  • объекты самолетов, которые сфотографированы с земли enter image description here

  • или наземные объекты, которые сфотографировали с воздуха enter image description here

Почему вращения -инвариантные нейронные сети не используются в победителях по соревнования по обстрелу соломы?

+0

Во многих соревнованиях люди анализируют каждый класс и его возможные повороты. Картина самолета в небе может иметь все возможные вращения, но горизонтальная картина собаки не работает. И они генерируют новые обучающие изображения из оригинальных с каждым возможным вращением. Может быть, это более точно, чем алгоритм с вращающимся инвариантом. Другое возможное объяснение заключается в том, что есть очень эффективные библиотеки для запуска CNN на графических процессорах (я не знаю, есть ли эффективные библиотеки на графических процессорах для вращения инвариантных нейронных сетей). – Rob

+0

@Rob ** 1. ** Да, поворот-инвариантный подход может использоваться только для аффинного преобразования (для обнаружения воздушных объектов из земли или наземных объектов из воздуха), но не для эллиптического преобразования (для обнаружения животных), а не для вращений вокруг оси вне плоскости съемки. Но rotate-invant-CNN можно использовать в дополнение к обычной сверточной сети в ансамблях. Поворот-инвариант-CNN требует гораздо меньше входных изображений и настраиваемых параметров - и, следовательно, быстрее и точнее учится (для наиболее подходящих объектов) – Alex

+0

@Rob ** 2. ** О графическом процессоре. 5. Реляционно-инвариантные сверточные нейронные сети для предсказания морфологии галактик: «7.9 Реализация ... Это позволило использовать ускорение GPU без каких-либо дополнительных усилий ... Сети были , обученные на картах NVIDIA GeForce GTX 680.' https: // arxiv .org/pdf/1503.07077v1.pdf Также может быть поворот-инвариант 'cv :: SURF_GPU' каким-то образом может использоваться вместо свертки-ядра (матрицы). – Alex

ответ

5

Недавний прогресс в распознавании изображений, которые в основном сделаны не меняя подход от классического выбора особенности - неглубокий алгоритм обучения в нет выбора Feture - глубокий алгоритм обучения был вызван не только математическими свойствами сверточных нейронным сетей.Да, конечно, их способность фиксировать ту же информацию с использованием меньшего количества параметров была частично вызвана их свойствами инвариантности сдвига, но последнее research показало, что это не ключ к пониманию их успеха.

На мой взгляд, главная причина этого успеха развивается быстрее алгоритмов обучения, чем более математически точные те, и поэтому меньше внимания уделяется разработке еще свойств инвариантных нейронных сетей.

Конечно, инвариантность вращения не пропускается вообще. Это частично сделано путем увеличения данных, когда вы помещаете слегка измененное (например, повернутое или масштабированное) изображение в ваш набор данных - с той же меткой. Как мы можем прочитать в этом fantastic book эти два подхода (больше структуры vs меньше структуры + увеличение данных) более или менее эквивалентны.

+1

Да, я думаю, что сверточно-ядерные ядра, не зависящие от вращения, еще не могут быть обучены так же быстро, как и обычное ядро. Однако для вращательно-инвариантных ядер требуется меньшее количество параметров для обучения (1-инвариантное вращение ядро ​​вместо 12 разных обычных ядер для каждого 30-градусного угла) и меньше входных изображений. Это должно ускорить обучение. – Alex

+1

Не могли бы вы быть более конкретными (например, номер страницы), где Бишоп утверждает, что два подхода более или менее эквивалентны? Я искал книгу для «увеличения», но не смог ничего найти. – DharmaTurtle

1

Я также задаюсь вопросом, почему сообщество или ученый не уделяло особого внимания рационализации CNN как @Alex.

Одна из возможных причин, на мой взгляд, состоит в том, что многие сценарии не нуждаются в этом свойстве, особенно для тех популярных соревнований. Как сказал Роб, некоторые естественные картины уже сделаны в едином горизонтальном (или вертикальном) направлении. Например, при обнаружении лица многие работы выравнивают изображение, чтобы люди стояли на земле перед подачей на любые модели CNN. Честно говоря, это самый дешевый и эффективный способ для этой конкретной задачи.

Однако в реальной жизни существуют некоторые сценарии, требующие свойства инвариантности вращения. Поэтому я прихожу к другой догадке: эта проблема не является сложной с точки зрения экспертов (или исследователей). По крайней мере, мы можем использовать увеличение данных для получения некоторого инварианта вращения.

И, наконец, большое спасибо за ваше резюме по поводу бумаг. Я добавил еще одну бумагу Group Equivariant Convolutional Networks_icml2016_GCNN и ее implementation on github от других людей.

Смежные вопросы