Есть ли способ в R определить количество генерируемых кластеров без указания вручную?Указание количества кластеров в R
После того, как я извлек «буквы» из строковых значений, я подвергал свою переменную 30000 различным значениям в кластерах, чтобы определить, какие значения следует обрабатывать одинаково. Поскольку существуют ценности, которые, предположительно, одни и те же, но различаются в пространстве, пунктуации и т.д. Например,
Emilia Clarke
Emilia Clark e
следует классифицировать, как 1
Я произвел матрицу 30000 х 30000 с элементами является расстояние одного слово к другому.
#Get all letters from a string
> extract_letters <- lapply(str_split(data01,""),function(x) names(table(x)))
#Get the distance of . I produced a 30000x30000 matrix
> compute_dist <- adist(extract_letters)
#Cluster
> hc <- hclust(as.dist(compute_dist))
#Plot via dendogram
> plot(hc)
Приведенный ниже код является тот, который я использую для небольших данных, однако, это не будет применяться здесь уже, так как я не мог рассмотреть сюжет из-за большого количества входы. Messy dendograms, так что я не в состоянии обнаружить, сколько кластеров outputed
> rect.hclust(hc,k=7)
я понятия не имею, о количестве кластеров не генерируется. Я полагаюсь на выходе самого hclust так что нет никакого способа для меня, чтобы сделать cutree так как мне нужно указать параметр к
cutree(hc, k = 7)
Я предполагаю, что вы делаете это, чтобы использовать некоторые модели для вывода или прогнозирования. Тогда кластеризация может считаться частью модели, и число кластеров может быть оптимизировано на основе (кросс-проверки). – Roland
@Roland, я делаю это, чтобы классифицировать значения, которые, возможно, одинаковы. – icychamp
Я понимаю это, но это, вероятно, не конечная цель. Почему они должны классифицироваться? Как вы проверяете, работает ли категоризация? – Roland