У меня есть кадр данных с 309 888 наблюдениями и 121 переменным. Я хотел бы удалить экземпляры, где дублика дублируется.Удаление дубликатов в наборах диадических данных (R)
данных
D1 <- data.frame(row = c(1, 2, 3, 4, 5, 6, 7 , 8),
country = c("China", "China", "China", "China", "Myanmar", "Myanmar", "Myanmar", "Myanmar"),
year = c(1990, 1990, 1990, 1991, 1990, 1990, 1990, 1991),
group_a = c("Tibetan", "Tibetan", "Han", "Tibetan", "Karens", "Bamar", "Bamar", "Bamar"),
group_b = c("Han", "Manchu", "Tibetan", "Han", "Bamar", "Shan", "Karens", "Karens"),
var1= c(0, 0, 0, 0, 0, 0, 0, 0),
var2 = c(0, 0, 0, 0, 0, 0, 0, 0))
выглядит
row country year group_a group_b var1 var2
1 1 China 1990 Tibetan Han 0 0
2 2 China 1990 Tibetan Manchu 0 0
3 3 China 1990 Han Tibetan 0 0
4 4 China 1991 Tibetan Han 0 0
5 5 Myanmar 1990 Karens Bamar 0 0
6 6 Myanmar 1990 Bamar Shan 0 0
7 7 Myanmar 1990 Bamar Karens 0 0
8 8 Myanmar 1991 Bamar Karens 0 0
В этой таблице, я хотел бы удалить строку 3 и строку 7 в комбинации столбцов 'group_a' и «группы b 'в строке 3 идентичны строке 1, то же самое относится к ряду 7 и строке 5.
Нужные Выходные
row country year group_a group_b var1 var2
1 1 China 1990 Tibetan Han 0 0
2 2 China 1990 Tibetan Manchu 0 0
4 4 China 1991 Tibetan Han 0 0
5 5 Myanmar 1990 Karens Bamar 0 0
6 6 Myanmar 1990 Bamar Shan 0 0
8 8 Myanmar 1991 Bamar Karens 0 0
Любые предложения о том, как это сделать?
Фотографии данных не воспроизводятся. Используйте результат из 'dput()' –
Спасибо, Ричард. Я не совсем уверен, что это то, что вы имели в виду, я включил код в свой вопрос. – rbeginner