Вот презентация моего набора данных:Single-сообщество алгоритм обнаружения
- Большая социально-сеть, состоящая из Twitter счета последователей очень крупных связанных счетов, последователи этого последователей и последователь этих последователей, на каждом итерация чистили бот счета, личные счета и т.д.
- Всего узлов: около 500 000
- Всего соединений: 95 миллионов
- 4 узлов имеют более 3 миллионов соединений
- 567 узлов имеют более 100000 соединений
- Половина набора данных имеют 3 или меньше соединений
Это сказало, Я хочу, чтобы очистить эту сеть для того, чтобы получить «лучшее» сингл-сообщество выходит из необработанный начальный график перед дальнейшей кластеризацией в субобменах. Имейте в виду эти несколько фактов:
- Из-за способа сбора данных я знаю, что для большинства этих узлов существует одно общее сообщество, которое является более оптимальным, чем вся сеть.
- Я хотел бы получить оптимальную единую подсетей исходной сети, избавляясь от всех узлов, которые не принадлежат к самому большому возможному общему сообществу.
- Дальнейшее изучение будет состоять в разделении этого сообщества в нескольких сообществах, следуя общей литературе по обнаружению сообщества, но это не то, что я хочу сделать здесь.
Я использовал алгоритмы обнаружения сообщества, такие как Лувен или модульность-оптимизацию (в меньшем подвыборки для слишком вычислительного второго), но целей этих Algos должны иметь лучший раскол, в то время как моя цель некоторые способы - наилучшее слияние.
Основная проблема может быть сведена по этой идее:Я рассматривал возможность использования следующего алгоритма. Начиная с большой сети; удаление «самого слабого» узла на каждой итерации; а модульность целого улучшается. Но это приведет к очень крошечной общине в конце.
Есть ли у вас какие-либо направления, где искать? Способ изменить методологию существующего алгоритма? Или даже документ, связанный с этой проблемой, даже если он совсем другой?
спасибо.
Вы изучали алгоритмы обнаружения/оптимизации клики? –
Это действительно зависит от того, что вы подразумеваете под «лучшим одиночным сообществом». «Модульность может быть полезной мерой, но она не всегда совпадает с тем, что вы пытаетесь сделать. Я бы поиграл с алгоритмом, который вы обсуждали, - удалите край с наименьшей междоузлиями на каждой итерации, – vroomfondel
@Alejandro Это идея того, какой результат я хотел бы встретить. Но проблема в том, что из-за высокой концентрации графика максимальная клика привела бы к очень малой частичной подобии. Я хотел бы получить что-то гораздо большее с лучшей репрезентативностью. Но спасибо, t hat's spirit – ylnor