ДляPartition РДД из текстового файла при сохранении заголовка
val rdd = sc.textFile("file.txt")
где file.txt
включает
Some Informative Header
value1, value11
value2, value22
как разделить rdd
в
Some Informative Header
value1, value11
и
Some Informative Header
value2, value22
, чтобы я мог запускать rdd.pipe("/bin/awesomeApp")
на каждом разделе?
Примечание В конце концов мои awesomeApp
потребности как самого первого въезда в Some Informative Header
, остальные записи могут быть вычислены параллельно.
Возможный дубликат [Как пропустить заголовок из CSV-файлов в Спарк ?] (http://stackoverflow.com/questions/27854919/how-to-skip-header-from-csv-files-in-spark) (Хотя в этом вопросе явно не задается вопрос о сохранении заголовка, некоторые из ответ на этот вопрос) – DNA
Если я могу спросить @DNA, какой? По крайней мере, предоставить OP прямую ссылку на этот ответ. – eliasah
@eliasah Sure - [этот ответ] (http://stackoverflow.com/a/31202898/699224) показывает способ сохранения заголовка – DNA