Глядя на этот код:прок glmselect обучение и тестирование
ods graphics on;
proc glmselect data=analysisData testdata=testData
seed=1 plots(stepAxis=number)=(criterionPanel ASEPlot);
partition fraction(validate=0.5);
class c1 c2 c3(order=data);
model y = c1|c2|c3|x1|x2|x3|x4|x5|x5|x6|x7|x8|x9|x10
|x11|x12|x13|x14|x15|x16|x17|x18|x19|x20 @2
/selection=stepwise(choose = validate
select = sl)
hierarchy=single stb;
run;
Взятые из here. Я понимаю, что вы четко определяете данные обучения (analysisData) и тестирования (testData). То, что я не совсем понимаю, - это утверждение PARTITION. Означает ли это, что анализ данных разбит на разделы, чтобы использовать одну половину аналитических данных для обучения, а другую половину для «тестирования» aka validation, чтобы определить, как, например, выполняют выбранные независимые переменные модели-кандидата? Другими словами, testData никогда не используется для обучения, как и следовало ожидать.
PS:
Btw, как я могу создать analysisData и Testdata из originalDataset с 80/20% расколоть?