2014-03-12 4 views
1

Я кластер неориентированных графов, используя mcl. Для этого я выбрал порог, под которым подключены узлы, показатель подобия для каждого ребра и параметр инфляции, чтобы настроить гранулярность моего графика. Я играл с этими параметрами, но до сих пор кластеры, кажется, слишком велики (я сделал визуализации, которые предполагают, что наибольшие кластеры должны быть разрезаны на 2 или более кластера). Поэтому мне было интересно, с какими другими параметрами я могу играть, чтобы улучшить кластеризацию (в настоящее время я работаю с параметром схемы mcl, чтобы узнать, поможет ли повышение точности, но если есть другие «более конкретные» параметры, которые могли бы помогите получить меньшие кластеры, например, пожалуйста, дайте мне знать)?Какие параметры можно использовать с помощью mcl?

ответ

4

В действительности, в основном, есть две вещи. Первое и самое главное - вне mcl (http://micans.org/mcl/), а именно, как построена сеть. Я писал об этом в другом месте, но я повторю это здесь, потому что это важно.

Если у вас есть взвешенное сходство, выберите обрезание по краю (подобие) так, чтобы топология сети стала информативной; то есть слишком много ребер или слишком мало краев, дает небольшую дискриминационную информацию в структуре отсутствия/присутствия краев . Выбирайте его таким образом, чтобы никакие края не соединяли вещи, которые вы считаете очень разными, и что края соединяют вещи, которые вы считаете несколько похожими на аналогичные. В случае mcl динамический диапазон в размере вес края между «немного подобным» и «очень похожим» должен быть, как правило, большим пальцем, на один порядок, т. Е. В два или пять раз или десять - как, например, против 0,9 до 1,0. Конечно, можно дать простые сети mcl, и он просто будет использовать отсутствие/наличие краев. Убедитесь, что сеть не станет очень плотной - это очень грубого правила может быть направлено на общее число ребер, которое в порядке V * sqrt(V) если число узлов (vertcies) является V, то есть , каждый узел имеет, в среднем, порядка sqrt(V) соседей.

Вышеуказанное, построение сети, действительно важно, и желательно, чтобы попробовать разные подходы. Теперь, учитывая сеть, , на самом деле существует только один параметр mcl: параметр инфляции (опция -I). Хороший набор значений для тестирования: 1.4, 2, 3, 4, 6.

В заключении, если вы изучаете, попробовать различные способы построения сети, используя свои знания о данных сделать сеть значимого представление, и совместить это с попытками различных значений MCL инфляции.

Смежные вопросы