Я искал вариант отладки при работе над функцией, использующей RDD в качестве ее параметра. Поскольку у меня есть огромное RDD, я бы хотел взять подмножество его для разработки функции.PySpark: Как взять образец RDD из огромного RDD?
Как я могу сделать подмножество RDD? Новый образец должен быть RDD?