Вы можете рассчитать показатели регрессии ошибки, как корень среднеквадратичной ошибки (СКО) или сумму квадратов ошибок (SSE) вручную как указал @ nathan-day. Большинство реализаций автоматически сделают это для вас, поэтому вам обычно не нужно делать это вручную.
В целях построения графика я буду использовать чуть больший пример сейчас, с большим количеством образцов, так как это будет лучше понять (набор данных iris
поставляется с R). Сначала мы тренируем линейную модель для предсказания 4-й функции из первых 3 функций, которые уже вычисляют некоторые метрики:
> model <- train(iris[,1:3], iris[,4], method = 'lm', metric = 'RMSE', trControl = trainControl(method = 'repeatedcv', number = 10, repeats = 10))
> print(model)
Linear Regression
150 samples
3 predictors
No pre-processing
Resampling: Cross-Validated (10 fold, repeated 10 times)
Summary of sample sizes: 134, 135, 135, 136, 134, 135, ...
Resampling results
RMSE Rsquared RMSE SD Rsquared SD
0.19 0.942 0.0399 0.0253
СКО, SSE и т.д. Теперь можно рассчитать из прогнозируемых и фактических значений целевого переменная вручную тоже:
predicted <- predict(model, iris[,1:3]) # perform the prediction
actual <- iris[,4]
sqrt(mean((predicted-actual)**2)) # RMSE
sum((predicted-actual)**2) # SSE
незначительные отличия от результатов от обучения модели выше результатов с использованием повторного перекрестной проверки (следовательно, показатели перечислены в разделе «результаты передискретизации» есть).
Для части чертежа: ошибку регрессии можно легко визуализировать, построив предсказание против фактической целевой переменной и/или построив ошибку на фактическое значение. Идеальная подгонка представлена дополнительной линией на этих графиках. Это слишком легко может быть достигнуто с помощью стандартных инструментов:
plot(predicted~actual)
abline(0,1)
plot(predicted-actual~actual)
abline(0,0)
PS: если вы не знакомы с мерой ошибки регрессии/классификации и надежными процедурами ОД я настоятельно рекомендую потратить некоторое время, чтобы прочитать на эти темы - это будет вероятно, сэкономит вам много извести позже. Я лично порекомендовал бы Applied Predictive Modeling Максом Куном (сопровождающим пакета caret
в R) и Кьеллом Джонсоном, поскольку его легко читать и очень практично.
Можете ли вы уточнить, что вы подразумеваете под «ошибкой»? Например [MAPE] (https://en.wikipedia.org/wiki/Mean_absolute_percentage_error)? – digEmAll