В настоящее время я работаю над кластеризацией некоторых больших данных, около 30 тыс. Строк, матрица различий, слишком большая для обработки R, я думаю, что это не проблема с размером памяти. Может быть, есть какой-то умный способ сделать это?Как вычислить массивную матрицу несходства в R
ответ
Если данные настолько велико, что основание R не может легко справиться, то у вас есть несколько вариантов:
- Работа на машине с большим количеством оперативной памяти.
- Использовать коммерческий продукт, например. Revolution Analytics, которая поддерживает работу с большими данными с R.
Вот пример использования RevoScaleR
коммерческого пакета от Revolution. Я использую набор данных diamonds
, часть ggplot2
, так как он содержит строки 53K, то есть немного больше ваших данных. Пример не имеет большой аналитический смысл, так как я наивно преобразовать факторы в числовые значения, но она иллюстрирует вычисление на ноутбуке:
library(ggplot2)
library(RevoScaleR)
artificial <- as.data.frame(sapply(diamonds, as.numeric))
clusters <- rxKmeans(~carat + cut + color + clarity + price,
data=artificial, numClusters=6)
clusters$centers
Это приводит к:
carat cut color clarity price
1 0.3873094 4.073170 3.294146 4.553910 932.6134
2 1.9338503 3.873151 4.285970 3.623935 16171.7006
3 1.0529018 3.655348 3.866056 3.135403 4897.1073
4 0.7298475 3.794888 3.486457 3.899821 2653.7674
5 1.2653675 3.879387 4.025984 4.065154 7777.0613
6 1.5808225 3.904489 4.066285 4.066285 11562.5788
Спасибо, мне нужно заплатить лицензионный сбор, если я его использую? Может быть, я должен попробовать сделать кластеризацию на Hadoop. – linus
- 1. Поиск лучшего количества кластеров, зная только матрицу несходства в R
- 2. Как рассчитать матрицу несходства в Spark?
- 3. Иерархический кластер с использованием матрицы несходства R
- 4. Вычислить матрицу совокупных расстояний в R
- 5. Вычислить матрицу sim R с Matlab
- 6. вычислить матрицу
- 7. Как вычислить матрицу ковариации
- 8. Gretl - как вычислить матрицу
- 9. Как вычислить матрицу Confusion?
- 10. Как вычислить корреляционную матрицу?
- 11. Функция несходства для текстового поиска в R
- 12. Как вычислить матрицу расстояний Ochiai с попарным удалением в R
- 13. Как правильно вычислить эту матрицу
- 14. Вычислить матрицу ковариации без цикла
- 15. Как вычислить ближайшую положительную полуопределенную матрицу?
- 16. Matlab: Как вычислить матрицу с матрицей клеток?
- 17. избежать многократного для-петли в R, чтобы вычислить матрицу
- 18. Вычислить матрицу смежности в R из матрицы nxm (представляющую карту)
- 19. Меры несходства (расстояния) между символьными векторами в R
- 20. Вычислить матрицу перехода букв
- 21. Python - вычислить матрицу совпадения
- 22. Как вычислить матрицу ковариации в блоках?
- 23. Как вычислить матрицу итерации в Gauss Seidel
- 24. как вычислить корреляционную матрицу в matlab
- 25. Как вычислить матрицу, образованную вектором в Mathematica
- 26. Как вычислить матрицу расстояния в искрах?
- 27. R vegan simper analysis: изменить матрицу расстояний
- 28. Как построить матрицу в R
- 29. Как изменить матрицу в R?
- 30. Преобразовать матрицу в кумулятивную матрицу в R
Пожалуйста, ознакомьтесь с правилами публикации и предоставить небольшой образец данных, а также код, который вы пробовали, и какие результаты вы получили. –
Возможно, вы захотите изучить другие приложения и алгоритмы. Я часто использую ELKI с 110k до 2m объектов. –