Мне интересно, если я должен установить номера разделов, как только преобразование имеет параметр numPartitions. Например, когда я создаю первый RDD в своем коде, я устанавливаю номер раздела. Если я создам другое RDD, будет ли номер раздела по умолчанию одинаковым с первым RDD?Нужно ли устанавливать номер раздела повсюду? spark
ответ
По умолчанию искра позаботится о разделении набора данных на разделы. Будут также выполняться все операции, выполняемые над начальным.
Однако иногда вам может потребоваться, чтобы все данные были в одном разделе для лучшей группировки на основе ваших функциональных требований. Тогда номер раздела поможет. На этом этапе вы также должны проверить настройку памяти исполнителя, так как теперь все данные будут в одном разделе.
Другой сценарий - когда вы выполняете фильтрацию. Внутренне те же разделы будут поддерживаться при выполнении фильтра, даже если большая часть записей отфильтровывается. Это приводит к полым перегородкам. Поэтому в этом случае вы можете объединиться. Этот метод принимает numOfPartitions.
Существует также метод rePartition(), который принимает numOfPartitions в качестве входных данных. Это связано с перестановкой. Вы можете найти их here
Таким образом, вы можете выбрать в соответствии с вашими потребностями
- 1. Нужно ли устанавливать ограничения?
- 2. Нужно ли устанавливать Glassfish?
- 3. Нужно ли устанавливать домен NetworkCredential?
- 4. Как определить, нужно ли устанавливать VCRedist?
- 5. Spark избежать перезаписи раздела
- 6. Нужно ли устанавливать hadoop в/usr/local?
- 7. Нужно ли всем пользователям сценариев устанавливать Powershell?
- 8. Нужно ли устанавливать флаги в синхронизированные блоки?
- 9. Нужно ли устанавливать git для использования github?
- 10. Нужно ли устанавливать Glassfish в каталог Java?
- 11. Нужно ли вручную устанавливать аутентификациюManager весной?
- 12. Нужно ли устанавливать autorelease в инструкции alloc?
- 13. Нужно ли устанавливать max_length в поле модели?
- 14. Нужно ли устанавливать драйверы для системы Windows7?
- 15. Как проверить, нужно ли устанавливать VCRedist?
- 16. Нужно ли устанавливать .DS_Store в Windows?
- 17. Нужно ли устанавливать Rails как системный жемчуг?
- 18. Нужно ли устанавливать делегаты для GCM iOS?
- 19. Нужно ли устанавливать Boost для создания odeint?
- 20. Нужно ли устанавливать scrollview.delegate как self?
- 21. Нужно ли устанавливать FlushMode.Commit при использовании ITransactions?
- 22. Могу ли я получить номер раздела Hadoop?
- 23. Как определить номер раздела вида заголовка раздела
- 24. Как файлы HDFS раздела Spark?
- 25. номер раздела на кнопку
- 26. Следует ли использовать NSInteger повсюду?
- 27. Spark RDD: размер каждого раздела
- 28. Спарк DataFrame Передел: номер раздела не сохранились
- 29. Может ли номер раздела Spark RDD быть изменен вручную без перераспределения
- 30. Зачем нам нужно устанавливать SONAR_RUNNER_OPTS?
Depends является следующим рддом преобразования старого РДДА? Если да, то в основном. Если это новый rdd, который вы формируете из данных, применяется искровой внутренний алгоритм. –
Хорошо, я понимаю. Спасибо! – volity
Одна из ситуаций, когда число разделов может меняться (во время преобразований) при использовании операций тасования. Вы можете [настроить настройку] (https://spark.apache.org/docs/1.6.0/sql-programming-guide.html#other-configuration-options). –