Я новичок в обучении машинам и пытаюсь написать алгоритм линейной регрессии, где у меня есть категориальная функция - Ключевые слова. В моей модели может быть около 10 миллионов ключевых слов.Как управлять огромным количеством значений для категориальной функции в линейной регрессии
В соответствии с инструкциями, приведенными здесь - http://www.psychstat.missouristate.edu/multibook/mlt08m.html
Похоже, я должен дихотомизации категориальные особенности. Означает ли это, что у меня будет 23 функциональных переменных (Dummy coding с уровнями 10M)?
Это лучший способ справиться с таким сценарием?
Как насчет особенного хэширования как метода? – Tushar
', если вы не хотите, чтобы «похожие» ключевые слова клуба вместе сокращали количество переменных-предикторов ». Это сходство может быть методом хэширования. –
Получил это спасибо! – Tushar