1

Я новичок в обучении машинам и хочу реализовать китайский китайский процесс, основанный на расстоянии, в MATLAB для кластеризации звуковых дорожек.Дистанционно-зависимый китайский ресторан Процесс может быть

Я ищу использовать dd-CRP на 26 функциях. Я предполагаю, что этот процесс может идти как этот

  • Читайте в 1-й вектор функции и присвоить ему «стол»
  • Чтение в 2 вектора признаков и сравнить его с «стол» 1-й, может быть, с помощью косинус угол (из-за большой размерности) двух векторов, и если он согласуется в некоторой определенной тете, соедините эту таблицу, иначе запустите новую.
  • Прочтите следующую функцию и повторите шаг 2 для нового вектора признаков для каждой существующей таблицы.
  • Пока это происходит, я буду отслеживать, сколько таблиц есть.

Я буду использовать алгоритм, скажем, например, 16 звуковых дорожек. Способ, которым аудио будет подаваться в алгоритм, - это первый вектор функции, начиная с первого кадра из аудиодорожки 1, второго вектора признаков из формы первого кадра в треке 2 и т. Д., Когда я пытаюсь выяснить, какой звуковые дорожки, как собирать вместе больше всего, но я не хочу определять, сколько там есть центроидов. Очевидно, мне придется отслеживать, на каком звуковом треке находится «таблица».

Имеет ли это смысл?

+1

Нам нравится обрабатывать конкретные проблемы с кодом. Я вижу, что вы ничего не отправили. Попробуйте добавить некоторые, чтобы получить ответы от нас. –

+0

Боюсь, я еще не написал код для dd-CRP. Я просто хочу узнать, правильно ли теория и мое понимание проблемы. У меня есть много кода, написанного для работы с аудио и кластеризацией с использованием k-средств, которые работают, но я смотрю на него. – daithioronain

+0

Возможно, это не относится к Matlab. Пожалуйста, удалите тег matlab. –

ответ

0

Вы можете использовать алгоритм X-means, который автоматически определяет оптимальное количество центроидов (и, следовательно, количество кластеров) на основе байесовского информационного критерия (или BIC). Короче говоря, алгоритм ищет, насколько плотен каждый кластер, и насколько далеко от каждого кластера от другого.

+0

Большое вам спасибо. Это именно то, что я ищу! – daithioronain

1

Это не китайский ресторанный процесс. Это эвристический алгоритм, который имеет некоторое сходство с китайским рестораном. В CRP все формулируется с точки зрения приоритетов над назначениями элементов кластерам (аналогия таблиц), и они объединены с функцией правдоподобия для каждого кластера (который формализует описанную вами функцию подобия). Затем вывод выполняется с помощью Gibbs Sampling, что означает не детерминистическую выборку, которая кластеризуется каждому треку, в свою очередь, с учетом всех других назначений. Вариационные методы для непараметрических объектов все еще находятся в очень предварительном состоянии.

Почему вы хотите использовать CRP? Как вы думаете, вы получите что-то из этого, кроме обычных методов кластеризации? Бар для входа для реализации и правильного понимания непараметрических показателей довольно высок, и на данный момент они часто мало практичны в использовании из-за ограничений, на которые я ссылался.

+0

Привет, Бен. Спасибо, что вернулся ко мне. Причина, по которой я смотрела на CRP, объясняется бесконечным количеством кластеров. То, что я на самом деле пытаюсь сделать, это скопировать аудиодорожки из многодорожечных записей. Традиционно в аудиопроизводстве вы бы группировали эти звуковые дорожки на основе контента, то есть группы ударных с другими барабанами, гитар с другими гитарами.Я извлекаю низкоуровневые функции с каждой из звуковых дорожек и группирую их на основе функций, а не следуя традиционной практике звукового проектирования, которая обычно является просто эмпирическим правилом. – daithioronain

+0

Возможно, мне было бы лучше смотреть на кластеризацию временных рядов в этом случае? – daithioronain

+0

Я думаю, что общая кластеризация прекрасна, и существуют методы кластеризации, которые не требуют априорной спецификации количества кластеров (хотя CRP - бесконечные модели, всегда будет конечное число кластеров для конечного числа точек данных). Взгляните на DBSCAN, например, который достаточно популярен, что вы не должны пытаться найти реализацию. –

Смежные вопросы