Я хочу выбрать подмножество n случайных записей из фреймворка данных, но я хочу уникальные значения на основе столбца. Так, например, из набора данныхВыберите подмножество уникальных случайных записей в R
X1 X2
1 4
1 5
1 6
2 44
2 55
3 444
3 555
3 666
3 777
Отсюда при п = 3, я не хочу что-то вроде:
X1 X2
3 777
3 555
2 55
, где две записи из одного семени X1 = 3 Но я хочу что-то например:
X1 X2
1 5
2 44
3 555
Как это сделать?
Я попробовал следующее:
df <- data.frame(matrix(c(1,1,1,2,2,3,3,3,3,4,4,4,5,5,5,5,5,4,5,6,44,55,444,555,666,777,4444,5555,6666,10,20,30,40,50),nrow=17,ncol=2))
df.colnames = c("x1","x2")
df[sample(nrow(df),3),]
Но это, кажется, не дать мне то, что я хочу. Как настроить образец, чтобы получить то, что я хочу? Или я должен использовать другую функцию для подмножества
Редактировать Обратите внимание, что мой df будет содержать около 50 миллионов записей, и я, возможно, захочу пробовать 1 миллион из них. (например, уникальные точки данных 1 м). Какой метод был бы наиболее эффективным?
А, кажется, я добавил свою идею, когда вы обновили свой ответ! – jazzurro