2012-01-27 3 views
8

У меня есть кадр данных целых чисел, который является подмножеством всех n, выбирает 3 комбинации из 1 ... n. Е.Г., при п = 5, это что-то вроде:Удаление дубликатов комбинаций (независимо от порядка)

 [,1] [,2] [,3] 
[1,] 1 2 3 
[2,] 1 2 4 
[3,] 1 2 5 
[4,] 1 3 4 
[5,] 1 3 5 
[6,] 1 4 5 
[7,] 2 1 3 
[8,] 2 1 4 
[9,] 2 1 5 
[10,] 2 3 4 
[11,] 2 3 5 
[12,] 2 4 5 
[13,] 3 1 2 
[14,] 3 1 4 
[15,] 3 1 5 
[16,] 3 2 4 
[17,] 3 2 5 
[18,] 3 4 5 
[19,] 4 1 2 
[20,] 4 1 3 
[21,] 4 1 5 
[22,] 4 2 3 
[23,] 4 2 5 
[24,] 4 3 5 
[25,] 5 1 2 
[26,] 5 1 3 
[27,] 5 1 4 
[28,] 5 2 3 
[29,] 5 2 4 
[30,] 5 3 4 

Что я хотел бы сделать, это удалить все строки с повторяющимися комбинациями, независимо от заказа. Например, [1,] 1 2 3 совпадает с [1,] 2 1 3 - это то же, что и [1,] 3 1 2.

unique, duplicated, & c. похоже, не учитывают это. Кроме того, я работаю с довольно большим объемом данных (n ~ 750), поэтому он должен быть довольно быстрой операцией. Существуют ли какие-либо базовые функции или пакеты, которые могут это сделать?

ответ

17

Просто отсортируйте по первым строкам. Что-то вроде:

> dat = matrix(scan('data.txt'), ncol=3, byrow=T) 
Read 90 items 
> dat.sort = t(apply(dat, 1, sort)) 
> dat[!duplicated(dat.sort),] 
     [,1] [,2] [,3] 
[1,] 1 2 3 
[2,] 1 2 4 
[3,] 1 2 5 
[4,] 1 3 4 
[5,] 1 3 5 
[6,] 1 4 5 
[7,] 2 3 4 
[8,] 2 3 5 
[9,] 2 4 5 
[10,] 3 4 5 
+0

+1, короткий и сладкий. –

+0

Отлично, спасибо! Не думал об этом. – seanimo

+0

t (гребенка (c (1: 5), 3)) – aatrujillob

Смежные вопросы