Каков наилучший способ использования номинальной стоимости вместо реальных или булевых для включения в подмножество вектора признаков для машинного обучения?Номинальный ценный набор данных в машинном обучении
Следует ли сопоставлять каждое номинальное значение с реальной стоимостью?
Например, если я хочу, чтобы сделать свою программу, чтобы узнать прогностическую модель для пользователей веб-Сервье, чьи входные функции могут включать в себя
{пол (булево), возраст (реальный), работа (номинальная)}
где зависимая переменная может быть номером входа в веб-сайт.
переменная работа может быть один из
{PROGRAMMER, ХУДОЖНИК, гражданского служащего ...}.
Должен ли я отображать PROGRAMMER на 0, ARTIST на 1 и т. Д.?
Не существует неотъемлемой причины для кодирования категорий как чисел для алгоритма машинного обучения. Более того, упорядочение чисел может смутить вас или других, считая, что для этого есть смысл. В следующих вопросах, пожалуйста, попробуйте форматировать вещи более тщательно. –
Благодарим вас за советы. –