2016-04-08 2 views
-1

У меня кластеризованный временной ряд 43574 с использованием кластера EM. Вывод - 24 кластера. У меня есть несколько вопросов. Во-первых, практично ли это иметь дело с 24 кластерами? Разве это не слишком много? Если я передаю результаты нейрохирургу, обозначающему эти кластеры с целью управления пациентом, это то, что вы собираетесь работать? Мой самый важный вопрос заключается в том, что, как показано ниже, пара кластеров имеет вероятность 0% ?! что это значит? Тогда почему они находятся в разных кластерах? Любая помощь будет высоко оценен, и это то, что я получил:EM Кластеризация с weka с логарифмической вероятностью 0 для некоторых кластеров? Путающий вывод

0 1892 (4%) 1 5153 (12%) 2 1594 (4%) 3 тысяча двести двадцать один (3%) 4 122 (0 %) 5 2714 (6%) 6 7092 (16%) 7 141 (0%) 8 166 (0%) 9 464 (1%) 10 3331 (8%) 11 4316 (10%) 14 2411 (6%) 15 2573 (6%) 17 3063 (7%) 18 142 (0%) 19 4211 (10%) 20 925 (2%) 21 2038 (5%) 22 5 (0%)

ответ

0

Эти значения не являются вероятностями, но размер.

data=array([1892, 5153, 1594, 1221, 122, 2714, 7092, 141, 166, 
    464, 3331, 4316, 2411, 2573, 3063, 142, 4211, 925, 2038, 5]) 

for f in data * 100./sum(data): print "%.1f%%" % f, 

дает следующие относительные размеры кластеров с дополнительной цифрой точности:

4.3% 11.8% 3.7% 2.8% 0.3% 6.2% 16.3% 0.3% 0.4% 1.1% 7.6% 9.9% 
5.5% 5.9% 7.0% 0.3% 9.7% 2.1% 4.7% 0.0% 

Они не являются Вероятности. Это размер кластера/данные набор размер.

+0

Anony, Мне непонятно, что это означает определить 5 кластеров, которые имеют 0%?! Как сказал u, размер кластера. Если никакие данные не могут быть классифицированы по этому кластеру, почему мы получаем этот кластер ?! Также почему я получаю несколько 0% вместо 1? – Parisan

+0

Это не абсолютный 0,0000000%, но 5/43574. Это тоже не вероятность. это всего лишь очень маленький кластер с 5 объектами **. Вероятно, выбросы или плохая предварительная обработка. –

+0

Спасибо Анони. Имеет смысл. – Parisan

Смежные вопросы