У меня есть пара RDD [String, String], где ключ - это строка, а значение - html. Я хочу разбить этот rdd на n RDDS на основе n ключей и сохранить их в HDFS.Разделить RDD на несколько RDDS
htmlRDD = [key1,html
key2,html
key3,html
key4,html
........]
Разделить это RDD на основе ключей и хранить html с каждого RDD отдельно на HDFS. Почему я хочу это сделать? Когда я пытаюсь сохранить html с основного RDD на HDFS, это занимает много времени, так как некоторым задачам отказывают в фиксации координатором вывода. Я делаю это в Скале.
htmlRDD.saveAsHadoopFile("hdfs:///Path/",classOf[String],classOf[String], classOf[Formatter])
Просто дикая догадка, сколько разделов и исполнителей есть в htmlRDD? Может случиться так, что искра просто перегружает HDFS запросами на запись. Но это может произойти только в том случае, если у вас много исполнителей искры. – evgenii