2016-05-24 2 views
0

Допустим, мы имеем переменную var1 типа org.apache.spark.rdd.RDD[org.apache.spark.mllib.linalg.Vector] и другой переменной var2 типа org.apache.spark.rdd.RDD[Int] оба они имеют одинаковое число строк.Как добавить столбец типа РДУ [Int] для РДУ [Вектор]

то, что я хочу, это добавить var2 как новый столбец в var1.

ответ

1

Самый простой способ для достижения этой цели является, чтобы сделать это:

vv.zip(ii).map(t => Vectors.dense(t._1.toArray ++ Array(t._2.toDouble))) 

где vv это ты RDD[Vector] и ii Ваш RDD[Int]. Возможно, это не самый эффективный способ, но это самый простой.

Смежные вопросы