2016-07-07 2 views
0

У меня есть набор данных SAS с отсутствующими данными в нескольких столбцах. Я бы хотел заменить отсутствующие данные прогнозом, основанным на других данных в наборе данных. Here ссылка, которая описывает метод, но не показывает мне, как это сделать. Как заменить отсутствующие значения на предсказание?Заменить отсутствующие данные в SAS с предсказанием: Врешение регрессии

EDIT: Метод, который я имел в виду, просто использовал Proc Reg, затем применил коэффициенты к отсутствующим данным для генерации оценки. Отвечает ли это на ваш вопрос?

+0

Прямо сейчас это слишком широкое - как объясняет этот документ, есть _lots_ способов сделать это. Каков ваш метод предсказания? – Joe

ответ

1

PROC STDIZE, PROC EXPAND и PROC MI способны выполнять различные виды вменения ваших данных в зависимости от того, как именно вы хотите определить «предсказание».

Для простых вещей, таких как замена в среднем, PROC STDIZE - это путь. PROC MI является самым продвинутым - он выполняет множественное вменение. PROC EXPAND подходит, если у вас есть данные временного ряда, так как он попытается определить правильное значение для этой точки временного ряда.

1

Если у вас отсутствуют данные в нескольких столбцах, вам потребуются несколько регрессий. Вероятно, это не очень хороший способ сделать это, но ответить на вопрос - то, что вы запрашиваете, называется скорингом набора данных, и вы можете использовать PROC SCORE.

Альтернативный метод в вашей процедуре регрессии запросит набор данных , содержащий предсказанные значения для этой регрессии.

output out=predicted1 p=pred_var_missing; 

В качестве методологии я рекомендую использовать метод Джо Джо.

0

Добавляя к ответу @Joe, если вы скажете нам, почему вы хотите сделать это вменение, мы можем предоставить лучший совет. Я написал сообщение в блоге под названием How to Ask a Statistics Question, которое может помочь.

Однако часто одно вменение является плохим методом. В частности, если вы собираетесь провести дальнейший анализ этих данных (с учетом вмененных значений), то единичное вменение будет недооценивать изменчивость данных и давать неправильные результаты.

PROC MI обычно лучше подходит.

Смежные вопросы