Предположим, у нас есть файл на HDFS, имеющий 3 блока (по 64 Мб каждый). Когда мы создаем RDD, используя тот же файл с тремя разделами, каждый узел в кластере (предположим, что кластер имеет 3 узла данных) будет иметь дублированное содержимое файла (один блок из hdfs и раздел RDD)RDD Partitioning
0
A
ответ
0
В HDFS блоки распределяются случайным образом (по умолчанию и если клиент, в который вы помещаете файл, не является частью кластера), поэтому вы не можете быть уверены, что каждый узел имеет 1 блок, если у вас нет реплики 3. В этом случае каждый блок будет размещен в трех узлах.
Что касается Spark, по умолчанию Spark пытается считывать данные в RDD из узлов, которые находятся рядом с ним, и пытается распространять rdd-разделы в кластере.
Ваше предположение не всегда верно, вам нужно рассмотреть распределение блоков HDFS с помощью стратегии размещения реплик, исполнителей искры и т. Д. Однако было бы правдой, если у вас есть реплика 3 в HDFS, и у вас есть Spark-кластер с 3 рабочих по одному в каждом узле кластера.
Смежные вопросы
- 1. mysql partitioning
- 2. mysql partitioning
- 3. Oracle Partitioning
- 4. hibernate и mysql partitioning
- 5. Oracle Partitioning and Indexes
- 6. Spring Batch -Remote partitioning
- 7. SQL Server Partitioning - Notation
- 8. SQL Script/Table Partitioning
- 9. MY SQL Partitioning advice
- 10. webapp partitioning on tomcat
- 11. MySQL Partitioning Ошибка
- 12. mysql row partitioning
- 13. OpenCV: Partitioning cv :: Mat
- 14. MySQL Partitioning Уникальный ключ
- 15. Разметка для пользовательских RDD
- 16. MySQL Partitioning в реальном примере
- 17. Postgresql Table Partitioning Django Project
- 18. Spring Batch partitioning a step
- 19. Python 3-way partitioning (Quicksort)
- 20. MySQL Partitioning (InnoDB) - Большой стол
- 21. SQL DW - Partitioning using split
- 22. using interval partitioning in mysql
- 23. SQL Server 2008 Table Partitioning
- 24. Mysql: Partitioning wihout Primary Key
- 25. Spring Batch partitioning -Queue configuration
- 26. Java RDD vs Scala RDD
- 27. spark schema rdd to RDD
- 28. Spring Partitioning - повторное использование JMS-каналов?
- 29. MySQL Partitioning. Функция таблицы возвращает неверный тип
- 30. Разделение диапазона Plinq vs Chunk partitioning?
Является ли это истинным пониманием? Просьба уточнить. –