2013-07-30 4 views
1

Я новичок в обучении машинам, и я работаю над проблемой классификации с категориальными (номинальными) данными. Я попытался применить BayesNet и пару алгоритмов классификации деревьев и правил к исходным данным. Я могу достичь AUC 0,85.Каковы способы предварительной обработки категориальных данных перед применением алгоритмов классификации?

Я также хочу улучшить AUC путем предварительной обработки или преобразования данных. Однако, поскольку данные категоричны, я не думаю, что здесь будут работать преобразования журнала, добавление, умножение и т. Д. Разных столбцов.

Может кто-нибудь перечислить, какие наиболее распространенные преобразования применяются к категориальным наборам данных? (Я пробовал одноразовое кодирование, но это требует много памяти!)

ответ

2

Категорически по моему опыту лучше всего разобраться с одним горячим кодированием (например, преобразованием в бинарный вектор), как вы уже упоминали. Если память является проблемой, может быть полезно использовать алгоритм онлайн-классификации и генерировать измененные векторы «на лету».

Помимо этого, если категории представляют диапазон (например, если категории представляют диапазон значений, таких как возраст, высота или доход), может быть возможно обработать центр (или какое-либо соответствующее среднее значение, если есть распределение внутри метки) категории варьируется как действительное число.

Если вы применяете кластеризацию, вы также можете рассматривать категориальные ярлыки как точки на оси (1,2,3,4,5 и т. Д.), Масштабированные соответствующим образом для других функций.

+0

Спасибо, Майк. Не могли бы вы указать некоторые общие ресурсы - а также какой-то конкретный ресурс для последнего упоминания о кластеризации? –

+0

Я просматривал несколько моих любимых книг ML (в частности, «Машинное обучение Мерфи»: вероятностная перспектива и байесовское рассуждение и машинное обучение Барбера), но ни один из них действительно не охватывает это на большой глубине, это очень похоже на вопрос «попробуйте, что вы думаете, может работать», что часто бывает с ML и может зависеть от алгоритмов, которые вы реализуете. Деревья принятия решений и их производные, имеющие достаточную глубину, должны иметь возможность обрабатывать категориальные данные неявно в любом случае. – Mike

Смежные вопросы