Мне нужно сохранить PipelinedRDD в файл hadoop

-1

Я выполнил все это в PySpark.Мне нужно сохранить PipelinedRDD в файл hadoop

первым прочитать файл из HDFS в РДУ:

distFile=sc.textFile("hdfs.......tsv")

потом разделить их по столбцам:

newfile = distFile.map(lambda line: line.split('\t'))

затем извлечь столбцы Мне нужно:

A = newfile.map(lambda r: [r[25], r[79], r[108], r[451]]).collect()

Итак, теперь A является конвейерным RDD с многочисленными строками и четырьмя столбцами. Мне нужно хранить A на HDFS. как это сделать ?

источник

2016-02-26 Haobo Yang

A не RDD, но и местный список. Если вы хотите сохранить RDD, не используйте collect. Чтобы сохранить файл, который вы можете использовать, например, saveAsTextFile метод:

newfile.map(
    lambda r: [r[25], r[79], r[108], r[451]] 
).saveAsTextFile(some_hdfs_path)

источник

2016-02-26 22:01:26 None

так вы имеете в виду, если я просто сделать это: A = newfile.map (лямбда-г: [г [25], г [79], г [108 ], r [451]]). A - это RDD. Однако, если я это сделаю: A = newfile.map (lambda r: [r [25], r [79], r [108], r [451]]). Collect(), A - список? –

Да, это именно то, что я имею в виду. – None

Мне нужно сохранить PipelinedRDD в файл hadoop

ответ

Смежные вопросы