Я новичок в обучении машинам, и я работаю над проблемой классификации с категориальными (номинальными) данными. Я попытался применить BayesNet и пару алгоритмов классификации деревьев и правил к исходным данным. Я могу достичь AUC 0,85.Каковы способы предварительной обработки категориальных данных перед применением алгоритмов классификации?
Я также хочу улучшить AUC путем предварительной обработки или преобразования данных. Однако, поскольку данные категоричны, я не думаю, что здесь будут работать преобразования журнала, добавление, умножение и т. Д. Разных столбцов.
Может кто-нибудь перечислить, какие наиболее распространенные преобразования применяются к категориальным наборам данных? (Я пробовал одноразовое кодирование, но это требует много памяти!)
Спасибо, Майк. Не могли бы вы указать некоторые общие ресурсы - а также какой-то конкретный ресурс для последнего упоминания о кластеризации? –
Я просматривал несколько моих любимых книг ML (в частности, «Машинное обучение Мерфи»: вероятностная перспектива и байесовское рассуждение и машинное обучение Барбера), но ни один из них действительно не охватывает это на большой глубине, это очень похоже на вопрос «попробуйте, что вы думаете, может работать», что часто бывает с ML и может зависеть от алгоритмов, которые вы реализуете. Деревья принятия решений и их производные, имеющие достаточную глубину, должны иметь возможность обрабатывать категориальные данные неявно в любом случае. – Mike