Кто-нибудь получил представление о том, как простой алгоритм K-средних может быть настроен для обработки наборов данных this form.Улучшение K Средство на некоторых наборах данных
ответ
Одним из возможных решений этой проблемы является добавление другого измерения в ваш набор данных, для которого существует разделение между двумя классами.
Очевидно, что это неприменимо во многих случаях, но если вы применили какое-то уменьшение размерности к вашим данным, то это может быть что-то стоящее для изучения.
Самый прямой способ обработки данных этой формы при использовании k - означает, что он использует ядерную версию k-средств. 2 его реализации существуют в библиотеке JSAT (см. Здесь https://github.com/EdwardRaff/JSAT/blob/67fe66db3955da9f4192bb8f7823d2aa6662fc6f/JSAT/src/jsat/clustering/kmeans/ElkanKernelKMeans.java)
Как сказал Николас, другой вариант заключается в создании нового пространства объектов, на котором вы запускаете k-средство. Однако это требует некоторого предварительного знания того, какие данные вы будете кластеризовать.
После этого вам просто нужно перейти к другому алгоритму. k-mean - простой алгоритм, который делает простые предположения о мире, и когда эти предположения слишком сильно нарушаются (не линейно разделяемые кластеры являются одним из этих предположений), тогда вам просто нужно принять это и выбрать более подходящий алгоритм.
- 1. K-средство для прогнозирования?
- 2. K-средство с начальными центрами
- 3. K-Средство для диагональных кластеров
- 4. cv2.getOptimalNewCameraMatrix возвращает ROI [0,0,0,0] на некоторых наборах данных
- 5. Высокая размерность на наборах данных
- 6. R k-средство, производящее «вычислительно-сингулярную» ошибку
- 7. k-средство для многих точек в R
- 8. Как использовать sklearn k-средство для набора данных 3D (RGB)?
- 9. nltk k-означает кластеризацию или k-средство с чистым питоном
- 10. k-средство для всех данных или для каждой функции?
- 11. Weighting k Средство Кластеризация по количеству наблюдений
- 12. K-средство - как рассчитать минимальное расстояние
- 13. K-средство Алгоритм с несколькими параметрами
- 14. Как использовать k-средство между двоичными изображениями?
- 15. SqlDataReader пропускает результаты в некоторых наборах результатов
- 16. K-средство с расстоянием от косинуса
- 17. Как реализовать k-средство с TensorFlow?
- 18. k-средство с выбранными начальными центрами
- 19. K-средство в интерфейсе Python OpenCV
- 20. Деревья принятия решений на огромных наборах данных
- 21. Понимание некоторых терминов в кластеризации K-классов
- 22. Как выполнить K-средство с помощью Apache Hadoop?
- 23. Улучшение на схеме базы данных
- 24. k-означает/x-средство (или другое?) Кластеризация в pandas/python
- 25. Sklearn-GMM на больших наборах данных
- 26. Эффективность касается re.findall на больших наборах данных
- 27. Альтернативные левые соединения на больших наборах данных
- 28. Выполнение соединений на очень больших наборах данных
- 29. Косаины сходства на больших наборах данных
- 30. Pandas применяют скорость на больших наборах данных.
* K * -means не так просто, вам нужно реализовать функцию расстояния самостоятельно. Вы всегда можете сделать функцию расстояния, которая прекрасно сочетает такие точки. Кроме того, crossvalidated.SE, возможно, является лучшим вариантом, чем SO. –
Спасибо за ответ! У меня было решение. По определению у меня есть 2 класса (красный и синий). Что делать, если я увеличиваю свой K в K-значении, скажем, до 5, а затем постепенно уменьшаю его (один за другим) при слиянии двух кластеров, которые минимизируют функцию argmin? (в этом случае функция будет увеличиваться с уменьшением K, но я буду перебирать пары и найти пару, которая увеличивает ее). Надеюсь, я поняла. –
Я подумаю о функции расстояния, которая могла бы соответствовать этому примеру. Перекрестная проверка для поиска лучшей формы этой функции расстояния? –