Использование модели мешков слов. Я подсчитываю количество слов в документе (это сообщения из досок) и создаю вектор для каждого сообщения. Пример:Оценка модели регрессии с r²
X = [[0,0,0,1,0,3,0,0]
[0,0,1,0,0,0,1,0]
[1,0,1,0,2,0,0,0]]
y = [22,35,87]
В y - метки/мишени каждому вектору в X (y = возраст автора).
После обучения модели регрессии (линейная регрессия, логистическая регрессия, ...) Я использую MAE (средняя абсолютная ошибка) , которая сравнивает предсказанный возраст с истинным возрастом, и я получаю удовлетворительные результаты.
Однако я не совсем понимаю, как использовать r²:
Входной
Верно ли, что я должен использовать предсказанную этикетки и истинные этикетки (В моем случае, используя возраст от 14-65)
r2_score(y_true, y_pred)
Разве это не то, для чего МАЭ?
Низкая r²
В этом примере предсказания довольно хорошо:
y_predicted = [49, 30, 31, 46, 28, 30]
y_true = [46, 28, 30, 49, 30, 57]
Все, кроме одного предсказания близки к истинному возрасту. MAE составляет 6,3 года, но scikit-learns rcascorer показывает -0,008
Почему это так плохо? Просто из-за одного неправильного предсказания?
Пирсона
Кроме того, существует корреляция Пирсона "г": ли Пирсона в квадрате равна r²?