2015-07-24 2 views
2

Я искал вариант отладки при работе над функцией, использующей RDD в качестве ее параметра. Поскольку у меня есть огромное RDD, я бы хотел взять подмножество его для разработки функции.PySpark: Как взять образец RDD из огромного RDD?

Как я могу сделать подмножество RDD? Новый образец должен быть RDD?

ответ

2

Oh!

Я получил его, мы можем использовать функцию выборки

sample(self, withReplacement, fraction, seed=None) 

возвращающей выборку подмножество этого РДА (зависит от NumPy и падает обратно на генераторе случайных чисел по умолчанию, если NumPy недоступен).

Смежные вопросы