Когда я использую topByKey с разными кластерами, у меня одинаковое количество времени, чтобы выполнить этот код независимо от количества используемых slave-устройств. Размер RDD_distance составляет 10^8 и 10^12 единиц.Является ли topByKey масштабируемым?
parsedData.cache
for(ind <- 1 to maxIterForYstar ) {
var rdd_distance = rdd_temp.cartesian(parsedData).map{ case (x,y) => (x.get_id,(y.get_vector,-Vectors.sqdist(x.get_vector,y.get_vector))) }
var rdd_knn_bykey = rdd_distance.topByKey(k)(Ordering[(Double)].on(x=>x._2))
}
Итак, мой вопрос в том, чтобы знать, является ли topByKey масштабируемым или если что-то не так с моим кодом.