Обычный подход заключается в выполнении одного горячего кодирования. Хотя это, очевидно, кодирует данные численно, у него есть несколько проблем.
- Увеличенная размерность. Это часто вызывает проблемы масштабируемости и дискриминации (расстояния между точками становятся слишком похожими)
- Проблемы с нормализацией и взвешиванием. Типичные стратегии нормализации, такие как мин-макс масштабирование и стандартизация не работают по желанию атрибутов
- Сопоставленной
- обработки новых значений атрибутов
- Переменными будет дискретными. Многие алгоритмы, такие как k-средства, требуют непрерывных атрибутов, которые хорошо работают.
- Проблемы с интерпретацией. Например. центр кластера часто не будет отображаться значимым образом в исходное пространство.