2016-10-31 3 views
0

У меня есть кластер с узлами gpu (nvidia) и развернутый DC/OS 1.8. Я хотел бы включить, чтобы запланировать задания (партии и искры) на узлах gpu, используя изоляцию gpu. DC/OS основан на mesos 1.0.1, который поддерживает изоляцию gpu.Включить ресурсы графического процессора (CUDA) на DC/OS

+2

Было бы здорово, если бы вы могли расширить свой вопрос тем, что вы уже пробовали или нашли. –

ответ

2

Для того чтобы поддерживающие GPU ресурсы в DC/OS кластера необходимы следующие шаги:

  1. Настройка Mesos агентов на GPU узлов:
    1.1. Остановить ИДК-Mesos-slave.service:

    systemctl stop dcos-mesos-slave.service

    1,2. Добавьте следующие параметры в /вар/Lib/DCOS/Mesos рабского общего файла:

    # a comma separated list of GPUs (id), as determined by running nvidia-smi on the host where the agent is to be launched MESOS_NVIDIA_GPU_DEVICES="0,1"

    # value of the gpus resource must be complied with number of ids above MESOS_RESOURCES= [ {"name":"ports","type":"RANGES","ranges": {"range": [{"begin": 1025, "end": 2180},{"begin": 2182, "end": 3887},{"begin": 3889, "end": 5049},{"begin": 5052, "end": 8079},{"begin": 8082, "end": 8180},{"begin": 8182, "end": 32000}]}} ,{"name": "gpus","type": "SCALAR","scalar": {"value": 2}}]

    MESOS_ISOLATION=cgroups/cpu,cgroups/mem,disk/du,network/cni,filesystem/linux,docker/runtime,docker/volume,cgroups/devices,gpu/nvidia

    1,3. Начало ИДК-Mesos-slave.service:

    systemctl start dcos-mesos-slave.service

  2. Включить возможность GPU_RESOURCES в рамках Mesos:

    2,1. Марафон раму следует запускать с опцией --enable_features "gpu_resources"

    2.2. Aurora планировщик должен быть запущен с опцией -allow_gpu_resource

Примечание.

Любой хост, на котором запущен агент Mesos с поддержкой Nvidia GPU, ДОЛЖЕН иметь действительный драйвер ядра Nvidia. Также настоятельно рекомендуется установить соответствующие библиотеки и инструменты пользовательского уровня, доступные как часть набора инструментов Nvidia CUDA. Многие задания, использующие графические процессоры Nvidia, полагаются на CUDA и не включают в себя, это сильно ограничит тип заданий, поддерживающих GPU, которые вы можете запускать на Mesos.

+1

вы бы знали, как установить «--enable_features» gpu_resources «для марафона». И чтобы быть понятным, это касается марафона, встроенного в мезос, а не службы, которую вы можете запустить из вселенной правильно? –

+1

В мезоне нет марафона. Существует марафон, встроенный в dcos. Вы можете создать автономную службу марафона в dcos, а также в автономном кластере мезо. Чтобы включить gpu_resources в марафоне: 1) автономный кластер mesos: добавьте в файл '/ etc/marathon/conf/enable_features' следующее:', gpu_resources'; 2) для dcos вам нужно отредактировать файл unit maradon systemd ('/ etc/systemd/system/dcos-marathon.service'), добавив параметр' --enable_features = "gpu_resources" 'в аргументы демона марафона (может быть лучший способ) – Kr0t

3

К сожалению, DC/OS официально не поддерживает графические процессоры в 1,8 (экспериментальной поддержки для графических процессоров будут приходить в следующем выпуске, как указано здесь: https://github.com/dcos/dcos/pull/766).

В этом следующем выпуске только марафон официально сможет запускать сервисы графического процессора (Metronome (т. Е. Пакетные задания) не будет).

Что касается искры, искровая версия в комплекте со Вселенной, вероятно, не имеет поддержки графического процессора для встроенного в Mesos. У искры есть это скоро: https://github.com/apache/spark/pull/14644

+1

есть документ/ссылка, в которой говорится, что Metronome пока не поддерживает графические процессоры? Я не мог найти его. 1.9.1, похоже, не нуждается в этой поддержке. У нас также есть требование использовать запланированные задания вместо экземпляров, основанных на обслуживании, через марафон. – Dharmi

Смежные вопросы