У меня есть административный набор данных для посещения магазина с нескольких лет, которые я пытаюсь объединить в один под переменной ID
.SPSS - слияние файлов с повторяющимися случаями переменной ID и новыми случаями/переменными
В каждом наборе данных есть дубликаты ID
, которые встречаются во время различных посещений магазина, аннотируются Date
. Некоторые из последних файлов данных также имеют новые переменные (Y
), не содержащиеся в старых файлах данных. Наборы данных из разных лет также будут содержать разные случаи, указанные разными ID
. Кроме того, некоторые переменные могут быть одинаковыми для каждого случая, но в разные даты. Я хочу, чтобы объединенный файл сохранил эти дубликаты.
Пример файлы данные:
Файл 1
ID Date X
1 3 4
1 5 3
2 1 4
Файл 2
ID Date X Y
1 6 4 2
1 7 1 5
2 8 4 7
3 7 2 3
Я хочу слитый файл для продолжения списка ВСЕХ повторяющихся случаев, когда такие:
ID Date X Y
1 3 4 .
1 5 3 .
1 6 4 2
1 7 1 5
2 1 4 .
2 8 4 7
3 7 2 3
Затем я планирую провести реструктуризацию (CASESTOVARS /AUTOFIX=0
) объединенный файл так, что он выглядит следующим образом:
ID Date.1 Date.2 Date.3 Date.4 X.1 X.2 X.3 X.4 Y.1 Y.2 Y.3 Y.4
1 3 5 6 7 4 3 4 1 . . 2 5
2 1 8 . . 4 4 . . . 7 . .
3 7 . . . 2 . . . 3 . . .
У меня возникли проблемы с начальным процессом слияния, однако. Я попытался найти самый безопасный способ слияния файлов, когда у них есть дубликаты, чтобы убедиться, что в процессе нет данных. Похоже, что метод «Добавить переменные» приводит к утере значений для повторяющихся переменных.
Спасибо!
EDIT: Если я использовал функцию «Добавить переменные» и использовал как переменные ключа ID
, так и Date
в качестве ключевых переменных, поможет ли это избежать удаления дубликатов случаев?
Я попробую это. Если есть «непарные» переменные (например, при добавлении старого набора данных в новый набор данных с новыми переменными), если я переведу их в активный набор данных, они будут просто отмечены «отсутствующими» для тех старых случаев в объединенном наборе данных? – ScienceStudent
Хорошо, поэтому использование команды «Добавить случаи» хорошо работает для подфайлов. Когда я пытаюсь реструктурировать/транспонировать, у меня возникают некоторые проблемы. Для каждого посещения есть три идентификатора: «ID» (для каждого человека); 'Дата'; и «Recrdnum» (запись номера для конкретного посещения будет отличаться, если одно и то же лицо имеет несколько посещений в ту же дату). Как они должны быть введены в синтаксис реструктуризации для транспонирования («CASESTOVARS») данных соответственно? – ScienceStudent
В «casestovars» вы можете иметь более одной индексной переменной. но я думаю, что ваша проблема реструктуризации нуждается в большей детализации, поэтому, возможно, сосредоточьтесь на ней в отдельном вопросе. –