У меня есть данные в виде РДУ [Список [Double], список [Double]], например:Scala Spark - используя RDD с mllib
sampleData =
(
((1.1, 1.2, 1.3), (1.1, 1.5, 1.2)),
((3.0, 3.3, 3.3), (3.1, 3.2, 3.6))
)
Я хотел бы назвать Statistics.corr (а , b) где a - из первого списка [Double], а b - из второго списка [Double]
Результат, который мне нужен, - это 2 значения корреляции от функции corr() для (1.1, 1.2, 1.3) , (1.1, 1.5, 1.2) и (3.0, 3.3, 3.3), (3.1, 3.2, 3.6)
Мой попытка:
Statistics.corr(sampleData.flatMap(_._1), sampleData.flatMap(_._2))
Это дает мне одну корреляцию для (1.1, 1.2, 1.3, 3.0, 3.3, 3.3), (1.1, 1.5, 1.2, 3.1, 3.2, 3.6), которая не является то, что я хочу