Я новичок в Python. Я хотел бы выполнить иерархическую кластеризацию в наборе данных N на P, который содержит некоторые отсутствующие значения. Я планирую использовать функцию scipy.cluster.hierarchy.linkage, которая принимает матрицу расстояний в конденсированной форме. Есть ли у Python метод вычисления матрицы расстояния для отсутствующих значений, содержащих данные? (В R dist функция автоматически заботится о отсутствующих значениях ... но scipy.spatial.distance.pdist, похоже, не обрабатывает пропущенные значения!)Python иерархическая кластеризация с отсутствующими значениями
2
A
ответ
1
Я не смог найти способ вычисления матрицы расстояния для данных с отсутствующими значениями. Итак, вот мое наивное решение, использующее евклидову дистанцию.
import numpy as np
def getMissDist(x,y):
return np.nanmean((x - y)**2)
def getMissDistMat(dat):
Npat = dat.shape[0]
dist = np.ndarray(shape=(Npat,Npat))
dist.fill(0)
for ix in range(0,Npat):
x = dat[ix,]
if ix >0:
for iy in range(0,ix):
y = dat[iy,]
dist[ix,iy] = getMissDist(x,y)
dist[iy,ix] = dist[ix,iy]
return dist
Тогда предположим, что dat
является N (= число случаев) Р (= число признаков) матрица данных с пропущенными значениями, то можно выполнить иерархическую кластеризацию на этом dat
как:
distMat = getMissDistMat(dat)
condensDist = dist.squareform(distMat)
link = hier.linkage(condensDist, method='average')
Смежные вопросы
- 1. Кластеризация с Scipy в Python? (иерархическая кластеризация)
- 2. многомерная иерархическая кластеризация - python
- 3. Иерархическая кластеризация Heatmap в python
- 4. Иерархическая кластеризация с R
- 5. Иерархическая кластеризация Дендрограмма с использованием python
- 6. Иерархическая кластеризация с Flann opencv
- 7. Распределенная иерархическая кластеризация
- 8. Иерархическая кластеризация в JavaScript
- 9. R: Иерархическая кластеризация
- 10. solr иерархическая кластеризация
- 11. Иерархическая кластеризация в OpenCV
- 12. Иерархическая кластеризация 1 миллиона объектов
- 13. Scipy иерархическая кластеризация - кластеризация нового вектора
- 14. Иерархическая кластеризация заданное расстояние матрица
- 15. Иерархическая кластеризация текста в масштабе
- 16. Python + GNU Сюжет: дело с отсутствующими значениями
- 17. PCA с отсутствующими значениями в Python
- 18. cor() с отсутствующими значениями
- 19. Weka с отсутствующими значениями
- 20. иерархическая кластеризация с матрицей экспрессии генов в python
- 21. иерархическая кластеризация с использованием flann в opencv
- 22. иерархическая кластеризация на корреляциях в Python scipy/numpy?
- 23. Иерархическая кластеризация временных рядов в Python scipy/numpy/pandas?
- 24. SQL Coalesce с отсутствующими значениями
- 25. сортировка столбца с отсутствующими значениями
- 26. Выравнивание последовательностей с отсутствующими значениями
- 27. Обрезка дендрограммы в scipy (иерархическая кластеризация)
- 28. Stata заменить "" отсутствующими значениями
- 29. Иерархическая кластеризация в php или javascript
- 30. Иерархическая кластеризация в R - 'pvclust' Проблемы
Вы может взглянуть на метод Imputer Sklearn. Он использует некоторую интерполяцию, основанную на соседних ячейках. – Moritz