Я использую ELKI's AnderbergHierarchicalClustering
для моих наборов данных с более чем 150000
наблюдений и для каждого наблюдения, я использую три переменные: lat
, lng
и price
, и все они являются double
.кластеризации большие данные с ELKI
У меня есть следующие проблемы:
- мой набор данных больше, чем принято одно (< = 65535 наблюдений)
- этот алгоритм также делает
right shift
дляAgnes triangle
-(size * (size - 1)) >>> 1
- это приходит до большихRAM
нуждаются
для того, чтобы решить эту проблему, я решил разделить набор данных в перекрывающиеся подмножества 20000 obs
.
Для 20000 obs
Мне понадобится ~4.8GB RAM
.
Я не знаю, какой был бы наилучший подход для разделения данных таким образом, чтобы результат кластера, примененный к подмножествам, был как можно ближе к результату кластеризации всего набора.
Я забыл сказать, что я использую 'complete-linkage'. Я пробовал «Андерберг» с другими стратегиями сцепления, но «полная связь» возвращает лучшие результаты для моих данных. У меня нет дубликатов. – Paul
Ну, тогда вы можете попробовать «CLINK», но я не был уверен в качестве. Кластеры с полной связью очень дороги. –
Я пробовал 'CLINK', но я не удовлетворен результатами. Я нашел хороший способ масштабирования данных. – Paul