Я думал эту проблему на всю ночь: вот моя матрица:R, находить дублирующиеся строки, независимо от того,
'a' '#' 3
'#' 'a' 3
0 'I am' 2
'I am' 0 2
.....
Я хочу лечить строки, подобные первым двум строкам, одинаковы, потому что это просто другой порядок «a» и «#». В моем случае я хочу удалить такие строки. Пример игрушки простой, первые два одинаковы, третий и четвертый одинаковые. но в моем наборе данных я не знаю, где «такая же» строка.
Я пишу в R. Спасибо.
Вы хотите удалить оба дубликата или только один? – CCurtis
Какой выход вы хотите получить? 'F T F T' или' T T T T'? ('F'-not dup,' T'-dup) – bartektartanus
Я думаю, что это довольно близко, но я получаю сообщение об ошибке. Странно, потому что он работает, если вы вручную указываете i и n, но когда я позволяю повторять и контролировать их, он выходит из строя. Он должен обозначать все повторяющиеся строки NA. то вы можете просто удалить их 'for (i в 1: length (df [, 1])) {x = (1: length (df [, 1])) x = x [! x == i] для (n в x) {if (sort (df [i,]) [1] == sort (df [n,]) [1] & sort (df [i,]) [2] == sort (df [n ,]) [2] & sort (df [i,]) [3] == sort (df [n,]) [3]) df [n, 1: 3] <- NA} } ' – CCurtis