При проведении исследований мне сложно удалить все подмножества в Spark RDD.Как эффективно удалить подмножество в искровом RDD
Структура данных RDD[(key,set)]
. Например, это может быть:
RDD[ ("peter",Set(1,2,3)), ("mike",Set(1,3)), ("jack",Set(5)) ]
Поскольку множество микрофону (Set(1,3))
является подмножеством Петра (Set(1,2,3))
, я хочу удалить «микрофон», который будет в конечном итоге с
RDD[ ("peter",Set(1,2,3)), ("jack",Set(5)) ]
Легко реализовать в python локально с двумя циклами «для». Но когда я хочу распространиться на облако с помощью scala и искры, не так просто найти хорошее решение.
Thanks
Что вы делаете со связями? '(" peter ", Set (1,2,3))' & '(" olga ", Set (1,2,3))' – maasg
Просто удалите один из них. Сохранение того, что не имеет значения. –
Предлагаемое решение поддерживает оба. Вам предлагается адаптировать его к вашим конкретным потребностям. – maasg