У меня есть файл, который разделен на вкладку. Третий столбец должен быть моим ключом, и вся запись должна быть моей ценностью (согласно концепции сокращения карты).Как обрабатывать разделенные табулятурой файлы в Spark?
val cefFile = sc.textFile("C:\\text1.txt")
val cefDim1 = cefFile.filter { line => line.startsWith("1") }
val joinedRDD = cefFile.map(x => x.split("\\t"))
joinedRDD.first().foreach { println }
Я могу получить значение первого столбца, но не третьего. Может ли кто-нибудь предложить мне, как я мог бы это сделать?
Я знаю, что мы можем использовать dataframes. Но у меня нет чего-то основного в искры. Итак, я пытаюсь создать сильный фундамент. Спасибо за ваш ответ. Он решил мою проблему – Satya