2017-02-03 2 views
2

Я разрабатываю механизм рекомендаций с помощью kNN. Данные, однако, скудны, имеют около 1500 образцов и около 200 функций. У меня есть порядковый мишень со значениями 1 или 0.Выбор функции и важные функции в kNN

Какими будут методы для выбора функций для него? Я предполагаю, что если я выбираю случайный лес для выбора функции, то выбранные функции могут отличаться от того, что kNN предполагает важные функции.

Кроме того, существует ли ограничение на количество функций, содержащих меня, так меньше количества образцов?

+0

В зависимости от того, насколько разрежены данные, основные компоненты могут быть подходящими. Если данные очень разреженные, тогда правила ассоциации могут быть подходящими. –

+0

как судить о разреженности данных? есть ли какая-нибудь матрица? – Gagan

ответ

0

Особенности методов выбора хотят либо исключить нерелевантные функции, либо/и исключить избыточные. Один из проверенных методов заключается в использовании Supervized discretization based on entropy (можно найти более общее объяснение here), чтобы значительно уменьшить размер ваших данных, а затем использовать Info Gain, чтобы получить верхние k наиболее коррелированных функций с целевой переменной. Существует не менее 5 различных методов, которые вы можете попробовать, это также зависит от библиотеки/рамки ml, которую вы используете для реализации вашего приложения.

0

Я бы попробовал с алгоритмом Рельефа, так как его основная часть - поиск ближайшего соседа.

Смежные вопросы