2015-07-31 4 views
-1

У меня есть RDD, в котором есть только 3 разных ключа, однако значения могут быть разными, а комбинация (ключ, значение) уникальна. Я пробовал из этого RDD, используя sampleByKey без замены. Теперь я хотел бы найти те элементы, которые не выбраны в выборке. Как я могу это сделать?Как найти дополнение к RDD в Spark

ответ

0

Вы можете сделать это:

rdd = sc.parallelize([('a', 1), ('a', 2), ('b', 1), ('b', 2), ('c', 1)]) 
rdd_in = rdd.sampleByKey(False, {'a': 0.5, 'b': 0.5, 'c': 0.5}, seed=3) 
print rdd_in.collect() 
# [('a', 2), ('b', 2), ('c', 1)] 
print rdd.subtract(rdd_in).collect() 
# [('a', 1), ('b', 1)] 
Смежные вопросы