PySpark: Как взять образец RDD из огромного RDD?

Я искал вариант отладки при работе над функцией, использующей RDD в качестве ее параметра. Поскольку у меня есть огромное RDD, я бы хотел взять подмножество его для разработки функции.PySpark: Как взять образец RDD из огромного RDD?

Как я могу сделать подмножество RDD? Новый образец должен быть RDD?

источник

2015-07-24 Anoop Toffy

Oh!

Я получил его, мы можем использовать функцию выборки

sample(self, withReplacement, fraction, seed=None)

возвращающей выборку подмножество этого РДА (зависит от NumPy и падает обратно на генераторе случайных чисел по умолчанию, если NumPy недоступен).

источник

2015-07-24 17:48:22

PySpark: Как взять образец RDD из огромного RDD?

ответ

Смежные вопросы