-3

Я довольно новичок в Machine Learning и недавно работал над новой проблемой классификации, к которой я даю ссылку ниже. Поскольку автомобили меня интересуют, я решил пойти с набором данных, который касается классификации автомобилей на основе нескольких атрибутов.Какой метод машинного обучения наиболее важен в этом сценарии?

http://archive.ics.uci.edu/ml/datasets/Car+Evaluation

Теперь я понимаю, что там может быть несколько способов идти об этом конкретном случае, но реальная проблема здесь - Какой конкретный алгоритм может быть наиболее эффективным?

Я рассматриваю регрессию, SVM, KNN и скрытые марковские модели. Любые предложения на всех были бы весьма признательны.

+0

Я сделал -1, потому что этот вопрос не имеет смысла. Это как спрашивать, как быть богатым. – SmallChess

+0

Прошу прощения за то, что вы расплывчаты. Но, как я уже сказал, я занимаюсь укреплением своих основ и просто искал руководства. – Karthik

+0

Прежде всего, вам нужно сообщить нам, что вы хотите классифицировать, и входные переменные. Это должен быть ваш первый раз, когда вы пытаетесь это сделать. – SmallChess

ответ

-1

У вас есть проблема классификации с несколькими классами с 1728 образцами. В особенности в 6 групп:

buying  v-high, high, med, low 
maint  v-high, high, med, low 
doors  2, 3, 4, 5-more 
persons  2, 4, more 
lug_boot  small, med, big 
safety  low, med, high 

, что вам нужно сделать для функций, чтобы создать такие функции, как это:

buying_v-high, buying-high, buying-med, buying-low, maint-v-high, ... 

в конце концов вы будете иметь

4+4+4+3+3+3 = 21 

функции , Выходные классы:

class  N   N[%] 
----------------------------- 
unacc  1210  (70.023 %) 
acc  384  (22.222 %) 
good  69  (3.993 %) 
v-good  65  (3.762 %) 

Вам необходимо попробовать несколько алгоритмов классификации, чтобы увидеть, какой из них лучше работает. Для оценки вы можете использовать кросс-валидацию, или вы можете убрать ответ 728 или образцы и оценить это.

Для моделей классификации вы перебираете более 10 различных моделей классификации, доступных в библиотеках Machine Learning, и проверяйте, какой из них лучше. Я предлагаю использовать scikit-learn для простоты.

Вы можете найти простой итератор над несколькими классификаторами в this script.

Помните, что вам нужно настроить некоторые параметры для каждой модели, и вы не должны настраивать их на тестовом наборе. Поэтому лучше разделить ваши образцы на 1000 (набор тренировок), 350 (набор для разработки), 378 (набор тестов). Используйте набор разработчика, чтобы настроить параметры и выбрать наиболее эффективную модель, а затем использовать набор тестов для оценки этой модели по невидимым данным.

+0

Это, безусловно, Помогите. Однако я не очень хорошо знаком с библиотеками и их использованием. Я думал, что начну, изучая их с самого начала, чтобы понять нюансы более четко. Идея состоит в том, чтобы работать с одним алгоритмом за раз и наблюдать различия между различными алгоритмами. – Karthik

+0

Я думаю, что основной группой моделей, на которой вы должны обратить внимание, является: KNN (непараметрический), NaiveBayes (генеративный) и SGDClassifier (дискриминационный, например LogisticRegression или SVM). Я бы начал с LogisticRegression (SGDClassifier с потерей журнала и регуляризацией). – Ash

+1

Да, поскольку это проблема с несколькими классами, я думаю, что это будут наши варианты. Хотя моя ставка на SVM, я хочу проверить и другие. – Karthik

Смежные вопросы