Мне пришлось решить аналогичную проблему, касающуюся отслеживания голов и конечностей студентов, участвующих в дискуссиях по классу на видео. Мы экспериментировали с использованием современного оптического отслеживания потока от Томаса Брокса (link, см. Часть о оптическом потоке большого объема). В нашем случае у нас было почти 20 терабайт видео, чтобы работать, поэтому у нас не было выбора, кроме использовать C++ и GPU для реализации оптического кода потока; Я думаю, вы также обнаружите, что Matlab невероятно медленный для проведения видеоанализа.
Оптический поток возвращает вам подробные векторы движения. Затем, если вы можете просто пометить исходную ограничительную рамку для рта и подбородка в первом кадре видео, вы можете следить за дорожками, данными оптическим потоком этих пикселей, и это обычно дает вам хорошую последовательность ограничивающих прямоугольников. Однако вы, вероятно, будете иметь ошибки, которые вы должны очистить. Вы можете написать скрипт Python, который воспроизводит последовательность ограничивающих блоков, чтобы вы могли быстро проверить наличие ошибок.
Код, который я написал для этого, находится в Python, и, вероятно, нелегко адаптироваться к вашей настройке данных или вашей проблеме, но вы можете найти мой код отслеживания оптического потока, основанный на аффинном преобразовании linked here, в части, называемой «Объект-трекер, использующий плотный оптический поток».
Короткий ответ заключается в том, что это очень сложная и раздражающая проблема для исследователей видения. Большинство людей «решают» его, размещая свои видеоролики, покадровые, на «Механический турк» и оплачивая работникам-человеками около 2 центов за кадр, которые они анализируют. Это дает вам неплохие результаты (вам все равно придется чистить их после сбора его из Mechanical Turkers), но это не очень полезно, когда у вас есть тонны видеороликов, и вы не можете дождаться достаточного количества их для случайного анализа на механическом Turk.
Однако определенно не существует никакого «из коробки» решения аннотации региона интереса. Вам, вероятно, придется заплатить довольно много за стороннее программное обеспечение, которое сделало это автоматически. Моя лучшая догадка заключается в том, чтобы проверить, что face.com будет взимать с вас плату и как она будет работать. Будьте осторожны, чтобы вы не нарушали каких-либо соглашений о конфиденциальности для исследователей с вашим набором данных, хотя для этого или Mechanical Turk.
Когда вы говорите: «Я думал, что смогу обрезать видео кадр за кадром», вы имеете в виду, что MATLAB волшебным образом догадается, где находятся губы? Или это вы обрезаете рамку? – Daniyar