2016-01-28 2 views
3

Я пытаюсь выполнить кластеризацию временных рядов с динамическим временем деформирования (DTW) с пакетом dtwclust.Кластеризация временных рядов с динамическим временем деформирования (DTW) с dtwclust

Я использую эту функцию,

dtwclust(data = NULL, type = "partitional", k = 2L, method = "average", 
distance = "dtw", centroid = "pam", preproc = NULL, dc = NULL, 
control = NULL, seed = NULL, distmat = NULL, ...) 

Я сохранить данные в виде списка, они имеют разную длину. , как пример ниже, и это временные ряды.

$a 
[1] 0 0 0 0 2 3 6 7 8 9 11 13 

$b 
[1] 0 1 1 2 4 7 8 11 13 15 17 19 22 25 28 31 34 35 

$c 
[1] 1 2 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 6 6 6 6 7 7 8 8 9 10 10 12 14 15 17 19 

$d 
[1] 0 0 0 0 0 1 2 4 4 4 

$e 
[1] 0 1 1 3 5 6 9 12 14 17 19 20 22 24 28 31 32 34 

Теперь моя проблема в

(1) я могу выбрать только dtw, dtw2 или sbd моего расстояния и dba, shape или pam для моего центроида (из-за разной длины списка). Но я не знаю, какое расстояние и центроид верны.

(2) У меня есть графика, но я не знаю, как правильно выбрать и разумно.

k = 6, distance = dtw, centroid = dba:

k = 4, distance = dtw, centroid = dba (кластер центр кажется проводной?)

У меня есть сделать все комбинации, к- от 4 до 13 лет ... но я не имеют понятия о том, как правильно выбрать ...

ответ

3

Вы не захотите "c шланга ", а скорее оценить результат. Поэтому вам необходимо выбрать критерий для оценки кластеризации. Вы в основном меняете параметры, такие как расстояние и k, а затем оцениваете кластеризацию с использованием функции потерь. Как правило, есть две возможности для оценки кластеризации:

внешняя оценка:

Вы можете использовать метки (которые не были использованы для кластеризации и поэтому рассматриваются как внешние) для расчета точности в виде ложных срабатываний , истинный положительный и т. д., который, наконец, приведет вас к AUC measure.

Кажется, что ваши данные не помечены, поэтому вы не можете вычислить какую-либо точность, что было бы самым простым способом.

внутренняя оценка:

В качестве альтернативы, вы можете попытаться максимизировать внутрикластерное сходство (среднее расстояние члена кластера ко всем другим членам конкретного кластера) и свести к минимуму между кластерами схожести (средним расстояние от элемента кластера до всех элементов вне его собственного кластера).

Для получения дополнительной информации можно найти:

http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-clustering-1.html

http://www.ims.uni-stuttgart.de/institut/mitarbeiter/schulte/theses/phd/algorithm.pdf

Смежные вопросы