2016-01-27 3 views
0

У меня есть свои данные в форме, такой как:Расчет коэффициента кластеризации

------------------------------------------------------------------------------- 
Author_ID Year CoAuthor_Count High Medium Low  Deviant Paper_Count 
------------------------------------------------------------------------------- 
677   2005 1    1.00 0.00 0.00 0.00 3 
677   2007 3    0.66 0.00 0.33 0.00 1 
677   2009 1    0.00 1.00 0.00 0.00 1 
677   2011 5    0.60 0.00 0.40 0.00 1 
677   2012 2    1.00 0.00 0.00 0.00 1 
677   2013 5    0.60 0.40 0.00 0.00 2 
1359  2005 11    0.00 0.00 0.81 0.18 11 
1359  2006 27    0.00 0.14 0.70 0.14 20 
1359  2007 29    0.00 0.06 0.62 0.31 12 
1359  2008 29    0.00 0.10 0.55 0.34 13 
1359  2009 28    0.00 0.32 0.53 0.14 18 
1359  2010 22    0.04 0.18 0.59 0.18 14 
... 
... 
... 

тогда High, Medium, Low и Deviant столбцы, представляющие значение подобия между Author и CoAuthor. В том же виде у меня также есть данные относительно Author и Venue сходства и количества.

Я использовал Microsoft Clustering, чтобы сгруппировать эти данные, он был успешным, так как присваивал каждой строке метку кластера.

Но проблема в том, что я хочу рассчитать коэффициенты кластеризации этих данных, тогда как данные должны быть в графической форме (узлы, ребра) для вычисления коэффициентов кластера.

Как можно вычислить коэффициент кластеризации этих данных?

+0

'Я использовал кластеризацию Microsoft для группировки этих данных': Не могли бы вы расширить это? Что это ? Любой источник? – kebs

+1

@kebs Это надстройки интеллектуального анализа данных для Excel, то есть [Алгоритм кластеризации Microsoft] https://msdn.microsoft.com/en-us/library/ms174879.aspx [Data Mining Client for Excel] https : //msdn.microsoft.com/en-us/library/dn282385.aspx [1]: – maliks

+0

Что такое «коэффициент компонент кластера»? Я никогда не слышал об этом, и ** google дает 0 результатов **. Как мы будем отвечать, когда вы просите чего-то, чего не существует? (Кроме того, не ожидайте, что мы будем писать код для вас - начните кодирование, спросите с кодом!) –

ответ

0

MS Clustering не дает вам формулы для вычисления (локального) коэффициента кластеризации автора.

Скорее Microsoft Clustering дает вам (согласно документации) два алгоритма, k-означает кластеризацию и кластеризацию EM (что связано с k-средствами, это more general). Вообще говоря, это методы структурирования набора данных в целом.

«Скопление кластеров», которое вы, вероятно, ищете, скорее является собственностью сети отношений автора.

Это случай неудачного наименования. Существует одно имя/атрибут для различных концепций:

  • «Алгоритмы кластеризации», бесконтрольных методы машинного обучения
  • «коэффициент кластеризации», мера из теории графов

local clustering coefficient может быть рассчитывается следующим образом

for each author 
    create a list of coauthor-ids of this author (this column is missing in your table) 
    for all coauthor-ids from that list, 
    count/sum the the unique mutual coauthorship-pairs between them, but not with the author himself 

    Divide this by the number of coauthors per author (you already have this one, CoAuthor_Count) 

См. иллюстрацию справа от страницы в Википедии, указанной выше.

Я не искал плагины Excel или модули VBA или дополнения, которые делают это.

+0

@ knb - вы правы для вычисления локального коэффициента кластеризации таким образом, но для других типов атрибутов, связанных с столбцом 'Author_ID', например. «Место проведения», если количество связанных атрибутов с «Авторами» больше, чем «1», то как вычислить коэффициент локальной кластеризации? – maliks

Смежные вопросы