2016-10-11 2 views
1

Имея эти данные:Что такое Алгоритм регрессии для использования в этом случае?

clientId zipCode codeHeatingType countingType consumptionProfile householdCount squareFootage 

01  75015 ELEC   P012   A400   6    25    

02  75002 GAZ    P011   A600   3    30    

и AvgConsumtion

clientId  AvgConsumption 
    01   300.5  (KWH) 
    02   400  (KWH) 

Что машинного обучения, чтобы использовать, чтобы оценить Avgconsumption в зависимости от характеристик клиента? LogisticRegression?, Многоклассовая классификация? ...

Возможно ли иметь пример с колонками строк?

ответ

0

Вам нужен алгоритм регрессии, который предсказывает непрерывную переменную. Вы можете найти список алгоритмов регрессии, реализованных в spark.mlhere с примерами.

Категориальные предикторы могут быть преобразованы различными способами с использованием непараметрического (не оптимизированного) Transformer (см. http://spark.apache.org/docs/latest/ml-features.html). Например, OneHotEncoder преобразует категориальные предиктора в набор бинарных предикторов. Примеры приведены в documentation.

Примечание: сообщайте о некоторых основах обучения в машинах, прежде чем пытаться слишком много. Существует ряд подводных камней, которые носят чисто статистический характер. По конкретным вопросам задайте here

+0

- линейная регрессия или обобщенная линейная регрессия предсказывают непрерывную переменную? как это знать? –

+0

все методы в связанном разделе - это методы регрессии (см. Таблицу содержимого: http://spark.apache.org/docs/latest/ml-classification-regression.html). Но не все модели регрессии будут иметь смысл в вашем контексте. Это не проблема синтаксиса, хотя, следовательно, она не входит в область StackOverflow (см. Http://stackoverflow.com/help/on-topic) – Wilmerton

+0

Я хочу знать, которые могут предсказать непрерывную переменную? и которые более адекватны моим потребностям –

Смежные вопросы