Если я знаю, что данный раздел набора данных находится на заданном сервере (например, предположим, что я знаю, что на этом сервере осколок или область базы данных находится на каком-то API метаданных конкретных баз данных) могу ли я использовать это при создании RDD через SparkContext.parallelize? В принципе, я хотел бы создать RDD из списка серверов, а для каждого сервера - создать совместно расположенный раздел RDD.Spark RDD affinity/Ручное коллокации разделов с данными
1
A
ответ
2
Это может быть достигнуто путем подкласса RDD и переопределения метода, приведенного ниже.
/**
* Optionally overridden by subclasses to specify placement preferences.
*/
protected def getPreferredLocations(split: Partition): Seq[String] = Nil
Существует пример этого из Hortonworks здесь: https://github.com/hortonworks-spark/shc/blob/master/core/src/main/scala/org/apache/spark/sql/execution/datasources/hbase/HBaseTableScan.scala
Я закончил тем, что писал это до as a blog post
Смежные вопросы
- 1. Несколько разделов в Spark RDD
- 2. Scala Spark RDD текущее количество разделов
- 3. Искры разделов: создание разделов RDD, но не разделов Hive
- 4. Количество разделов Spark Dataframe
- 5. Предопределяющее количество разделов RDD
- 6. Как обмениваться данными с Spark RDD между двумя приложениями
- 7. spark schema rdd to RDD
- 8. Apache Spark Поиск значения RDD
- 9. Apache Spark RDD Split "|"
- 10. Итерация через Spark RDD
- 11. Spark RDD проблемы
- 12. Array [Byte] Spark RDD для String Spark RDD
- 13. Spark: Манипулирование несколькими RDD
- 14. Spark RDD- map vs mapPartitions
- 15. Работа с несколькими столбцами RDD в Spark?
- 16. Spark scala RDD traversing
- 17. Spark RDD data selection
- 18. Spark RDD для обновления
- 19. Spark RDD Внешнее хранилище
- 20. Spark RDD throwing NullPointerException
- 21. Java Spark RDD в другом RDD?
- 22. Невозможно преобразовать Spark RDD в схему RDD
- 23. Spark: Работает вложенная RDD
- 24. Spark: Merge RDD
- 25. Spark RDD apend
- 26. Apache Spark RDD Workflow
- 27. Apache Spark Rdd persist
- 28. Сомнения на RDD Spark
- 29. Как сопоставить RDD с другим RDD с Scala, в Spark?
- 30. Удалить пустые разделы из Spark RDD