Я пытаюсь загрузить CSV файл через SparkContext и после загрузки мне нужно выполнять какие-либо операции РДД на требуемых столбцов CSV файла. Мне удалось прочитать файл csv и получить необходимые столбцы из JavaRDD. Теперь мне нужно выполнить любые операции RDD в этих столбцах.Спарк RDD функции на CSV файл
Это то, что я пытался до сих пор ..
JavaRDD<String> diskfile = sc.textFile("/Users/hadoop/Downloads/Data_1.csv");
JavaRDD<Object> newRDD = diskfile.cache().map(lines -> Arrays.asList(new String[]{
lines.split(",")[0],
lines.split(",")[1]
}
));
System.out.println(newRDD.collect());
newRDD.collect()
печатает 0th столбцов и первого столбца данных в формате CSV. Теперь мне нужно выполнить любые операции RDD на newRDD
.
Заранее спасибо.
Спасибо за ответ, я знаю о работе RDD. здесь мое требование - применить операции rdd на двух столбцах данных csv. – user4342532
wt операция вы ищете? –
Мне нужно вернуть значение column2 с максимальным значением столбца1. – user4342532