Как я могу объединить элементы в Spark RDD при пользовательском состоянии?слияния элементов в искровом RDD при настраиваемом состоянии
Предположим, что есть RDD [Seq [Int]], где некоторые Seq [Int] в этом RDD содержат перекрывающиеся элементы. Задача состоит в том, чтобы объединить все перекрывающиеся Seq [Int] в этом RDD и сохранить результат в новом RDD.
Например, предположим, что RDD [Seq [Int]] = [[1,2,3], [2,4,5], [1,2], [7,8,9]], результат должен быть [[1,2,3,4,5], [7,8,9]].
Поскольку RDD [Seq [Int]] очень большой, я не могу это сделать в программе драйвера. Можно ли это сделать, используя распределенные groupBy/map/reduce и т. Д.?
@maasg Я думаю, что эта проблема может быть преобразована в вычислениях всех подключенных график, образованных элементами в RDD [Seq [Int]], так как условие слияния (два Seq [Int] имеет перекрывающиеся целые числа) обозначает соединение между двумя Seq [Int] –
Действительно, это была бы идея. Я вижу, что вы новичок в SO. Добро пожаловать !. Это часть «правил дома», чтобы показать свои собственные усилия в решении проблемы, отсюда и предыдущий комментарий. – maasg