У меня есть временных рядов данные 12 потребителей. Данные, соответствующие 12 потребителей (называемых в a ... l
) является Кластер ваших данных временного ряда
Я хочу, чтобы объединить эти потребитель, чтобы я мог знать, какие из потребителей имеет максимальное сходное поведение потребления. Соответственно, я нашел метод кластеризации pamk, который автоматически вычисляет количество кластеров во входных данных.
Я предполагаю, что у меня есть только два варианта расчета расстояния между любыми двумя временными рядами, то есть Euclidean и DTW. Я попробовал их обоих, и у меня есть разные кластеры. Теперь вопрос в том, на что я должен положиться? и почему?
Когда я использую Eulidean
расстояние я получил следующие кластеры:
и использование DTW
расстояния я получил
Вывод: Как вы будете решать, какие кластерный подход является лучшим в этом случае ?
Примечание: Я задал тот же вопрос и на Cross-Validated.
Я голосую, чтобы закрыть этот вопрос как не по теме, потому что вы перекрестно размещены на SE, что является лучшим сайтом для такого вопроса. –
Насколько хорошо ваши данные вписываются в каждый результат кластеризации? Кто-то дает больше выбросов, чем другой? У кластеров есть какой-то физический смысл? –
@Pascal, Вы правы, что SE лучше. Но факт в том, что форма в последние несколько дней, я заметил, что у меня нет комментариев, ответ на любой из моих вопросов. Я считаю, что Stack Overflow намного активнее, чем Cross-validated. –