0

Не могли бы вы помочь мне понять это, потому что я не уверен, правильно ли я получил его.Решение о уменьшении размерности, классификации и кластеризации?

Предположим, у меня есть набор данных, людей с 100 функциями, такими как высота, вес, возраст и т. Д. Я хочу классифицировать, если они нормальные или ненормальные. По ненормальным я имею в виду, если 20-летний мужчина составляет 170 см и 150 кг, чтобы определить его как ненормальный.

Должен ли я использовать самоорганизующуюся карту для уменьшения размерности (эти 100 функций), а затем K-означает классифицировать их в нормальные и ненормальные? Это правильный подход? Или я могу использовать только K-NN, чтобы классифицировать их в нормальные - ненормальные без какой-либо уменьшения размерности?

Сколько функций я могу использовать с K-NN? Все примеры, которые я нашел до сих пор, используют только два.

И если позже я хотел бы узнать, почему этот человек включен в ненормальный класс, как я могу найти, что это произошло из-за этих двух особенностей, его вес в соответствии с его высотой?

+0

Лучше спросить - http://datascience.stackexchange.com/ –

+1

Или вы даже можете использовать PCA с K-Means и т. Д. Я боюсь, что этот вопрос слишком широк и не может ответьте в объеме SO. Но в качестве совета вы должны анализировать и изучать свои данные перед тем, как перейти к разработке алгоритма. Это общая ошибка в области науки. Анализ данных поможет вам решить, действительно ли вам нужно уменьшить размер, конструкторскую характеристику, классификацию или кластеризацию, возможно, с kmeans или случайными лесами и т. Д. – eliasah

+0

@eliasah Не могли бы вы рассказать мне, сколько функций я могу использовать с K-NN? Могу ли я использовать K-NN сотнями функций? – jimakos17

ответ

1

Если у вас нет ярлыков для каждого образца - это неконтролируемая обучающая задача, возможно, обнаружение/обнаружение аномалий.

Я думаю, что в вашем случае вам просто нужно установить многомерное распределение гауссова в ваш набор данных и предположить, что новый образец не является нормальным, если p (x) (где p - нормальное распределение) меньше некоторого порогового значения. Смотри также: http://scikit-learn.org/stable/modules/outlier_detection.html#outlier-detection

Смежные вопросы