2017-02-04 4 views
0

Я пытаюсь запустить алгоритм кластеризации на моем наборе данных. Мой набор данных - это набор пакетов (исходный Ip, назначение, порт, метка класса). Я хочу преобразовать эти данные из номинальных в числовые данные. Каковы надлежащие методы для преобразования этих данных?Преобразование номинальных чисел в числовые данные?

ответ

0

Обычный подход заключается в выполнении одного горячего кодирования. Хотя это, очевидно, кодирует данные численно, у него есть несколько проблем.

  1. Увеличенная размерность. Это часто вызывает проблемы масштабируемости и дискриминации (расстояния между точками становятся слишком похожими)
  2. Проблемы с нормализацией и взвешиванием. Типичные стратегии нормализации, такие как мин-макс масштабирование и стандартизация не работают по желанию атрибутов
  3. Сопоставленной
  4. обработки новых значений атрибутов
  5. Переменными будет дискретными. Многие алгоритмы, такие как k-средства, требуют непрерывных атрибутов, которые хорошо работают.
  6. Проблемы с интерпретацией. Например. центр кластера часто не будет отображаться значимым образом в исходное пространство.