2016-04-06 4 views
-2

Я вижу много примеров, используя массив для создания вершины сначала, а затем распараллеливать его, чтобы сделать его RDD, но если у меня есть огромные данные, то как бы я его обработал? Я не думаю, что могу создать массив из 1 миллиона строк вершин.Spark graphX: как загрузить большие данные для создания графика

Есть еще одна должность, Spark GraphX - How can I read from a JSON file in Spark and create a graph from the data?, также предлагается использовать массив, а также исправьте меня, если я ошибаюсь, но опять же я не думаю, что это сработает.

Заранее спасибо.

ответ

0

Если ваши данные в файле, то вы можете напрямую создать RDD поверх него:

val rdd : RDD[String] = sparkContext.textFile("/path/to/file") 

, а затем ваш преобразовать его в VertexRDD или EdgeRDD.

Смежные вопросы