Мы используем следующую аппаратную конфигурацию для запуска нескольких GPU обучения с использованием tensorflow:Обучение tensorflow на нескольких GPU сбой компьютера
ubuntu 16.04
cuda 8
cudnn 5.1
8 titan X pascal
220GB of memory
Обучение код основан на стройной, опубликованной в tensorflow/модели репозитория GitHub.
Мы можем запускать код обучения, если мы не используем все графические процессоры (до 4, проверены). Но, как только мы используем все 8 графических процессоров, компьютер падает.
Что может быть причиной этого?
У Вас есть дополнительная информация о том, как он выходит из строя, и как воспроизвести проблему? –
Отныне понятия не имею. Поскольку у нас нет журнала. Каждый раз, когда нам нужно перезагрузить компьютер. Мы подозреваем, что выдает память. – jrabary