У меня есть кластер с узлами gpu (nvidia) и развернутый DC/OS 1.8. Я хотел бы включить, чтобы запланировать задания (партии и искры) на узлах gpu, используя изоляцию gpu. DC/OS основан на mesos 1.0.1, который поддерживает изоляцию gpu.Включить ресурсы графического процессора (CUDA) на DC/OS
ответ
Для того чтобы поддерживающие GPU ресурсы в DC/OS кластера необходимы следующие шаги:
Настройка Mesos агентов на GPU узлов:
1.1. Остановить ИДК-Mesos-slave.service:systemctl stop dcos-mesos-slave.service
1,2. Добавьте следующие параметры в /вар/Lib/DCOS/Mesos рабского общего файла:
# a comma separated list of GPUs (id), as determined by running nvidia-smi on the host where the agent is to be launched MESOS_NVIDIA_GPU_DEVICES="0,1"
# value of the gpus resource must be complied with number of ids above MESOS_RESOURCES= [ {"name":"ports","type":"RANGES","ranges": {"range": [{"begin": 1025, "end": 2180},{"begin": 2182, "end": 3887},{"begin": 3889, "end": 5049},{"begin": 5052, "end": 8079},{"begin": 8082, "end": 8180},{"begin": 8182, "end": 32000}]}} ,{"name": "gpus","type": "SCALAR","scalar": {"value": 2}}]
MESOS_ISOLATION=cgroups/cpu,cgroups/mem,disk/du,network/cni,filesystem/linux,docker/runtime,docker/volume,cgroups/devices,gpu/nvidia
1,3. Начало ИДК-Mesos-slave.service:
systemctl start dcos-mesos-slave.service
Включить возможность GPU_RESOURCES в рамках Mesos:
2,1. Марафон раму следует запускать с опцией
--enable_features "gpu_resources"
2.2. Aurora планировщик должен быть запущен с опцией
-allow_gpu_resource
Примечание.
Любой хост, на котором запущен агент Mesos с поддержкой Nvidia GPU, ДОЛЖЕН иметь действительный драйвер ядра Nvidia. Также настоятельно рекомендуется установить соответствующие библиотеки и инструменты пользовательского уровня, доступные как часть набора инструментов Nvidia CUDA. Многие задания, использующие графические процессоры Nvidia, полагаются на CUDA и не включают в себя, это сильно ограничит тип заданий, поддерживающих GPU, которые вы можете запускать на Mesos.
вы бы знали, как установить «--enable_features» gpu_resources «для марафона». И чтобы быть понятным, это касается марафона, встроенного в мезос, а не службы, которую вы можете запустить из вселенной правильно? –
В мезоне нет марафона. Существует марафон, встроенный в dcos. Вы можете создать автономную службу марафона в dcos, а также в автономном кластере мезо. Чтобы включить gpu_resources в марафоне: 1) автономный кластер mesos: добавьте в файл '/ etc/marathon/conf/enable_features' следующее:', gpu_resources'; 2) для dcos вам нужно отредактировать файл unit maradon systemd ('/ etc/systemd/system/dcos-marathon.service'), добавив параметр' --enable_features = "gpu_resources" 'в аргументы демона марафона (может быть лучший способ) – Kr0t
К сожалению, DC/OS официально не поддерживает графические процессоры в 1,8 (экспериментальной поддержки для графических процессоров будут приходить в следующем выпуске, как указано здесь: https://github.com/dcos/dcos/pull/766).
В этом следующем выпуске только марафон официально сможет запускать сервисы графического процессора (Metronome (т. Е. Пакетные задания) не будет).
Что касается искры, искровая версия в комплекте со Вселенной, вероятно, не имеет поддержки графического процессора для встроенного в Mesos. У искры есть это скоро: https://github.com/apache/spark/pull/14644
есть документ/ссылка, в которой говорится, что Metronome пока не поддерживает графические процессоры? Я не мог найти его. 1.9.1, похоже, не нуждается в этой поддержке. У нас также есть требование использовать запланированные задания вместо экземпляров, основанных на обслуживании, через марафон. – Dharmi
- 1. Оптимизация графического процессора Cuda
- 2. Низкое использование графического процессора в CUDA
- 3. Проверка CUDA-совместимого графического процессора в Ubuntu
- 4. Установить максимальные ресурсы CUDA
- 5. Использование графического процессора в unix
- 6. Целесообразность использования графического процессора как процессора?
- 7. Включить трассировку графического процессора с помощью ADB
- 8. Concurrency, 4 CUDA Приложения, конкурирующие за получение ресурсов графического процессора
- 9. Современный рендеринг объема графического процессора
- 10. Как получить 100% использование графического процессора с использованием CUDA
- 11. Использование функции процессора в CUDA
- 12. Нервные частицы графического процессора
- 13. Выполнение образцов CUDA GUI из пассивного (неактивного) графического процессора
- 14. Сброс графического процессора и драйвера после ошибки CUDA
- 15. Копирование больших данных и из графического процессора с использованием CUDA
- 16. CUDA: данные процесса, которые не вписываются в память графического процессора
- 17. Возможно ли использовать ресурсы графического процессора для Gingerbread для приложения?
- 18. Оценка эффективности графического процессора в FLOPS (примеры CUDA)
- 19. присвоение значений переменным в памяти графического процессора в CUDA
- 20. Одновременный запуск нескольких ядер с использованием CUDA для графического процессора
- 21. Распределение памяти графического процессора под архитектурой CUDA 8 и Pascal
- 22. Apache Spark - оптимизация и использование графического процессора CUDA локально
- 23. Обнаружение хорошего графического процессора на Android
- 24. Деинтерлейсинг графического процессора
- 25. Составление резюме :: Ошибка графического процессора
- 26. Архитектура графического процессора (Nvidia)
- 27. Показатели производительности графического процессора
- 28. Theano: смешивание процессора и графического процессора?
- 29. Включенное сканирование на основе графического процессора на неуравновешенном дереве
- 30. Сброс платы графического процессора через 2 секунды
Было бы здорово, если бы вы могли расширить свой вопрос тем, что вы уже пробовали или нашли. –