У меня есть маленький (2k) набор данных, содержащий ответы на вопросники, заполненные студентами, которые были отбираются дважды в год. не все студенты, которые присутствовали на первой волне, были там для второй волны и наоборот. для каждого ученика был создан уникальный идентификатор, который состоял из школьного кода, кода класса, номера ученика и волны в виде десятичной точки. например, 100612.1 - студент из школы 10, класс 6, 12 в списке имен, и это была первая волна. идея десятичной точки была способом снова идентифицировать одного и того же ученика в наборе данных (единственное значение, которое отличается от abs (1) от данного id, является одним и тем же учеником на другой волне). По крайней мере, это было идея.нахождение «почти» индексов дубликатов в таблице данных и вычисление дельта
я думал о сценарии, который будет делать следующее: - найти строки, которые уникальный идентификатор меньше абс (1) друг от друга - для тех строк, генерировать новую строку (в новой таблице) который состоит из идентификатора студента и дельта измеренных переменных (т. е. значения в волне 2 - значение в волне 1).
Я новичок в R, но у меня крошечный бит фона в другом ООП. Я думал о создании цикла for, который работает от 1 до длины (df) и просто ищет его «брат». мое чувство кишки подсказывает мне, что это не так, как в Р. делаются какие-то идеи? все, что мне нужно, - это быстрый способ просеивания данных, ищущих вторую волновую строку. Я думаю, что остальное должно быть прямо оттуда.
спасибо, что Вам помогли
PS. так как это мой первый пост здесь, я заранее извиняюсь за любые нарушения в этом сообщении ... :)
отрубить десятичную величину и вычислить итоговую статистику (т. Е. Дельта) на оставшийся идентификатор (100612) – rawr