Преобразование номинальных чисел в числовые данные?

Я пытаюсь запустить алгоритм кластеризации на моем наборе данных. Мой набор данных - это набор пакетов (исходный Ip, назначение, порт, метка класса). Я хочу преобразовать эти данные из номинальных в числовые данные. Каковы надлежащие методы для преобразования этих данных?Преобразование номинальных чисел в числовые данные?

источник

2017-02-04 suad

Обычный подход заключается в выполнении одного горячего кодирования. Хотя это, очевидно, кодирует данные численно, у него есть несколько проблем.

Увеличенная размерность. Это часто вызывает проблемы масштабируемости и дискриминации (расстояния между точками становятся слишком похожими)
Проблемы с нормализацией и взвешиванием. Типичные стратегии нормализации, такие как мин-макс масштабирование и стандартизация не работают по желанию атрибутов
Сопоставленной
обработки новых значений атрибутов
Переменными будет дискретными. Многие алгоритмы, такие как k-средства, требуют непрерывных атрибутов, которые хорошо работают.
Проблемы с интерпретацией. Например. центр кластера часто не будет отображаться значимым образом в исходное пространство.

источник

2017-02-05 11:15:16

Преобразование номинальных чисел в числовые данные?

ответ

Смежные вопросы