Я преобразовать матрицу Numpy в RDD с размером перегородки 10.раздела матрица РДД в pyspark
from pyspark import SparkContext, SparkConf
sc = SparkContext("local", "Simple App")
x = np.matrix(np.random.normal(mu, sigma, 10000), dtype=np.float)
x.shape=(100,100)
rdd = sc.parallelize(x, 10)
Здесь в каждой строке RDD является объектом матрицы, и я могу получить доступ к нему с помощью rdd.collect()[row_num][0]
. Как я могу группировать десять строк в каждый раздел?. Раньше я пытался использовать Dense matrix, я не мог получить правильные результаты.