2016-10-31 5 views
-1

Есть ли способ в R определить количество генерируемых кластеров без указания вручную?Указание количества кластеров в R

После того, как я извлек «буквы» из строковых значений, я подвергал свою переменную 30000 различным значениям в кластерах, чтобы определить, какие значения следует обрабатывать одинаково. Поскольку существуют ценности, которые, предположительно, одни и те же, но различаются в пространстве, пунктуации и т.д. Например,

Emilia Clarke 
Emilia Clark e 

следует классифицировать, как 1

Я произвел матрицу 30000 х 30000 с элементами является расстояние одного слово к другому.

#Get all letters from a string 
> extract_letters <- lapply(str_split(data01,""),function(x) names(table(x))) 
#Get the distance of . I produced a 30000x30000 matrix 
> compute_dist <- adist(extract_letters) 
#Cluster 
> hc <- hclust(as.dist(compute_dist)) 
#Plot via dendogram 
> plot(hc) 

Kindly see the result dendogram

Приведенный ниже код является тот, который я использую для небольших данных, однако, это не будет применяться здесь уже, так как я не мог рассмотреть сюжет из-за большого количества входы. Messy dendograms, так что я не в состоянии обнаружить, сколько кластеров outputed

> rect.hclust(hc,k=7) 

я понятия не имею, о количестве кластеров не генерируется. Я полагаюсь на выходе самого hclust так что нет никакого способа для меня, чтобы сделать cutree так как мне нужно указать параметр к

cutree(hc, k = 7) 
+1

Я предполагаю, что вы делаете это, чтобы использовать некоторые модели для вывода или прогнозирования. Тогда кластеризация может считаться частью модели, и число кластеров может быть оптимизировано на основе (кросс-проверки). – Roland

+0

@Roland, я делаю это, чтобы классифицировать значения, которые, возможно, одинаковы. – icychamp

+0

Я понимаю это, но это, вероятно, не конечная цель. Почему они должны классифицироваться? Как вы проверяете, работает ли категоризация? – Roland

ответ

0

Много индексов были введены для определения количества кластеров. Наиболее распространенными индексами метода являются индекс разрыва, индекс CH, индекс DB, индекс силуэта.
Большинство этих индексов пытаются максимизировать межкластерную вариацию, минимизируя внутрикластерную вариацию.

в г NbClust пакет вводит около 30 показателей для определения числа кластеров для иерархических и к-средства кластеризации method.You можно прочитать на упаковке NbClust https://cran.r-project.org/web/packages/NbClust/NbClust.pdf

Смежные вопросы