2015-06-18 3 views
1

Я пытаюсь предсказать качество вина (от 1 до 10) с использованием моделей регрессии, таких как линейный, SGDRegressor, хребет, лассо.Как избежать значений поплавка в моделях регрессии

набор данные: http://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv

Независимых значения: летучие кислоты, остаточный сахар, свободный диоксид серы, общая объем двуокись серы, alchohol Зависимые: Качество

Линейная модель

regr = linear_model.LinearRegression(n_jobs=3) 
regr.fit(x_train, y_train) 
predicted = regr.predict(x_test) 

предсказал значения для LinearRegression массив ([5.33560542, 5.473 47404, 6,09337194 ..., 5,67566813, 5,43609198 , 6,08189])

предсказал значение в поплавке вместо (1,2,3 ... 10) Я пытался округлить предсказанные значения с помощью NumPy

predicted = np.round(regr.predict(x_test))` but my accuracy gone down with this attempt. 

SGDRegressor модель.

from sklearn import linear_model 
np.random.seed(0) 
clf = linear_model.SGDRegressor() 
clf.fit(x_train, y_train) 
redicted = np.floor(clf.predict(x_test)) 

предсказал выходные значения для SGDRegressor:

array([ -2.77685458e+12, 3.26826414e+12, 4.18655713e+11, ..., 
    4.72375220e+12, -7.08866307e+11, 3.95571514e+12]) 

Здесь я не могу преобразовать выходные значения в целых числах.

Может кто-нибудь, пожалуйста, сообщите мне лучший способ предсказать качество вина, используя эти модели регрессии.

+0

У вас нормализованы данные между 0 и 1? или иногда в зависимости от регрессии между -1 и 1 – pbu

+0

Возможно, это проблема классификации? –

+0

В рамках академического задания мы должны использовать как классификацию (чтобы классифицировать вино на основе качества), так и модели регрессии (чтобы предсказать качество вина) @ Chung-YenHung, думаете ли вы, что есть какая-либо альтернатива или я пропущу любые другие меры? – Praneeth

ответ

2

Вы делаете регрессию, и поэтому выход непрерывный по своей природе.

Следует отметить, что ваш мини-проект на , предсказывающий качество вина, не является проблемой классификации. Ответная переменная y, качество вина, имеет внутренний порядок, что означает, что оценка 6 строго лучше, чем оценка 5. Это НЕ категорическая переменная, где разные числа представляют собой разные группы, где группы не сопоставимы.

Смежные вопросы