Я смущен о работе с памятью исполнителя и памятью водителя в Spark.Как справиться с памятью исполнителя и памятью драйвера в Spark?
настройки моего окружения, как показано ниже:
- Память 128 G, 16 CPU для 9 VM
- Centos
- Hadoop 2.5.0-cdh5.2.0
- Спарк 1.1.0
Информация о входных данных:
- 3,5 Гб файл данных от HDFS
Для простого развития, я выполнил мой код Python в режиме автономного кластера (8 рабочих, 20 ядер, 45,3 G памяти) с spark-submit
. Теперь я хотел бы установить память исполнителей или память драйвера для настройки производительности.
Spark documentation С, определение для исполнителя памяти
Объем памяти для использования в процессе исполнителю, в том же формате, что и строки памяти виртуальной машины Java (например, 512m, 2 г).
Как насчет памяти водителя?