У меня есть данные, собранные в Нью-Джерси, а подразделения - отдельные люди, вложенные в четыре города. В четырех городах есть также три типа окрестностей, определенные кем-то.Какую статистическую модель/метод следует использовать?
Я пытаюсь выяснить, есть ли разница в dep var (например, еду в ресторане быстрого питания более одного раза в неделю) через города, контролирующие отдельные переменные уровня.
Я запускаю двоичную модель логита, контролирующую кластеризацию на уровне города. Я использовал Proc Genmod в SAS.
Вопрос в том, имеет ли смысл включать фиктивные переменные для городов, пока я контролирую кластеризацию на уровне города?
proc genmod data=njcob.foranalysis;
class cityid; /* <= ID for four cities*/
model ffwk1ormore=
city1 city2 /* <= not sure about this part */
male age6and11 age12and19 black hispanic fgnborn highsch more_highsch povlevel/dist=bin;
repeated subject=cityid/type=ind;
run;
Или есть лучшая модель? Буду признателен за любые советы! Спасибо.
Я запускаю модель со всеми городами и пытаюсь выяснить, существует ли какая-либо разница между ними, контролирующей индивидуальные и соседние характеристики. И я корректирую эффект кластеризации на уровне соседства в модели. Имеет ли это смысл? – Brainupgraded
ОК, я думаю, что имеет смысл добавить их в качестве фиктивной переменной. Но они, вероятно, должны быть сильно коррелированы с другими переменными, которые описаны на уровне окрестности (особенно если они являются непрерывными переменными. Возможно, пошаговый или лассовый выбор переменных может подтвердить вас, если вам нужно их сохранить или нет. – YCR