У меня есть набор данных с исходными данными и некоторыми связанными переменными. Это выглядит примерно так:Правильное сравнение данных в R
"Origin","Destination","distance","volume"
"A01" "A01" 0.0 10
"A02" "A01" 1.2 9
"A03" "A01" 1.4 15
"A01" "A02" 1.2 16
Тогда для каждой пары происхождения-назначение, я хочу, чтобы иметь возможность рассчитать дополнительные переменные, основанные на данных в обеих этой строке и в других выбранных строках. Например, сколько других областей происхождения, отправляющихся в этот пункт назначения, имеют объемы трафика больше фокусной пары. В этом примере я получаю следующее для адресата A01.
"Origin","Destination","distance","volume","greater_flow"
"A01" "A01" 0.0 10 1
"A02" "A01" 1.2 9 2
"A03" "A01" 1.4 15 0
Я пытался разработать что-то с group_by
и apply
, но не может работать, как а) «исправить» данные, которые я хочу использовать в качестве эталонного (объемом от А01 до А01) и б) ограничивают сравнение только данными с одним и тем же пунктом назначения (A01) и c) повторяют для всех пар источника-получателя.
Спасибо, это было действительно полезно. Моя фактическая проблема сложнее, но я могу понять, как подойти к ней сейчас. –