2015-11-13 4 views
1

У меня есть временных рядов данные 12 потребителей. Данные, соответствующие 12 потребителей (называемых в a ... l) является enter image description hereКластер ваших данных временного ряда

Я хочу, чтобы объединить эти потребитель, чтобы я мог знать, какие из потребителей имеет максимальное сходное поведение потребления. Соответственно, я нашел метод кластеризации pamk, который автоматически вычисляет количество кластеров во входных данных.

Я предполагаю, что у меня есть только два варианта расчета расстояния между любыми двумя временными рядами, то есть Euclidean и DTW. Я попробовал их обоих, и у меня есть разные кластеры. Теперь вопрос в том, на что я должен положиться? и почему?

Когда я использую Eulidean расстояние я получил следующие кластеры: enter image description here

и использование DTW расстояния я получил enter image description here

Вывод: Как вы будете решать, какие кластерный подход является лучшим в этом случае ?

Примечание: Я задал тот же вопрос и на Cross-Validated.

+0

Я голосую, чтобы закрыть этот вопрос как не по теме, потому что вы перекрестно размещены на SE, что является лучшим сайтом для такого вопроса. –

+0

Насколько хорошо ваши данные вписываются в каждый результат кластеризации? Кто-то дает больше выбросов, чем другой? У кластеров есть какой-то физический смысл? –

+0

@Pascal, Вы правы, что SE лучше. Но факт в том, что форма в последние несколько дней, я заметил, что у меня нет комментариев, ответ на любой из моих вопросов. Я считаю, что Stack Overflow намного активнее, чем Cross-validated. –

ответ

0
  1. Ни одно из перечисленных выше видов не похоже на меня. Вы см. любой узор? Может быть, нет картины?

  2. Визуализации кластеризации показывают, что нет кластеров, тоже. b и l кажутся самыми необычными выбросами; затем d,e,h; но там нет кластеров.

  3. Также попробуйте иерархическую кластеризацию. dendrogram может быть более понятным.

Но в любом случае, не может быть никаких скоплений. Вы должны быть готовы к этому результату и считаете его действительной гипотезой. Проверить любой результат. Как вы видели, pam будет всегда вернет результат, и у вас нет абсолютно никаких средств для решения, какой результат более «правильный», чем другой (скорее всего, не верно, и вы должны полагаться на ни , чтобы ответить на ваш вопрос).

Смежные вопросы