Если у нас есть файл 128 МБ с разделом HDFS 128 МБ, и мы выдаем sc.textFile (xxx, 4), что на самом деле происходит? Что же означает RDD в данном случае в терминах разделения? 4 обработки разделов по-прежнему или всего 1?SPARK RDD Partition на одном HDFS Split
0
A
ответ
1
При использовании такого кода:
JavaRDD<String> in = sc.textFile(xxx,4);
in.persist();
Тогда ваш РДД имеет 4 разделов. Они должны иметь размер 32 МБ каждый. Затем вы можете сделать что-то любит это:
rdd.count()
При запуске, то ваш код локально с местными [4], то счетчик будет выполняться с 4-процессов (задач) параллельно.
Смежные вопросы
- 1. Apache Spark RDD Split "|"
- 2. Процесс Spark Streaming rdd и хранить в одном файле HDFS
- 3. Сомнения на RDD Spark
- 4. Spark Split RDD в куски и конкатенация
- 5. Partition Расположение RDD/Dataframe
- 6. Spark RDD для обновления
- 7. spark schema rdd to RDD
- 8. Spark RDD проблемы
- 9. Работа столбца на Spark RDD
- 10. Spark - Spark RDD - логическая коллекция инструкций?
- 11. Spark RDD Внешнее хранилище
- 12. Как файлы HDFS раздела Spark?
- 13. Почему раздел Spark RDD имеет ограничение 2 ГБ для HDFS?
- 14. Spark: Сохранение RDD по уже существующему пути в HDFS
- 15. Синхронизация между разделами Spark RDD
- 16. Partition Spark DataFrame на основе столбца
- 17. Невозможно преобразовать Spark RDD в схему RDD
- 18. Spark: Merge RDD
- 19. Spark dataframe сохранить в одном файле на hdfs location
- 20. Spark: Разверните RDD на пары?
- 21. Выбор колонки RDD scala-spark
- 22. Spark RDD - как они работают
- 23. Последний элемент RDD не сохранен в HDFS
- 24. Spark HDFS размер на AWS?
- 25. HDFS Block Split
- 26. Динамический генератор ключей Spark RDD
- 27. Как сохранить Spark Java Dstream RDD
- 28. Java Spark RDD в другом RDD?
- 29. Как обрабатывать два RDD серийно в Spark?
- 30. присоединиться к двум файлам данных в HDFS с помощью Spark?
ОК, но текст указывает, что по умолчанию он будет блокироваться HDFS, поэтому это неверно. С тобой все еще. Тогда, если не использовать локальные [4], что тогда? Все разделы будут находиться в памяти на том же узле, что и 4 части, или только 1 часть с указателями для начала, конца и т. Д.? MR кажется немного легче следовать. @Simon Schiff – thebluephantom