2016-12-15 3 views
1

Мы используем следующую аппаратную конфигурацию для запуска нескольких GPU обучения с использованием tensorflow:Обучение tensorflow на нескольких GPU сбой компьютера

ubuntu 16.04 
cuda 8 
cudnn 5.1 
8 titan X pascal 
220GB of memory 

Обучение код основан на стройной, опубликованной в tensorflow/модели репозитория GitHub.

Мы можем запускать код обучения, если мы не используем все графические процессоры (до 4, проверены). Но, как только мы используем все 8 графических процессоров, компьютер падает.

Что может быть причиной этого?

+0

У Вас есть дополнительная информация о том, как он выходит из строя, и как воспроизвести проблему? –

+0

Отныне понятия не имею. Поскольку у нас нет журнала. Каждый раз, когда нам нужно перезагрузить компьютер. Мы подозреваем, что выдает память. – jrabary

ответ

0

У меня была аналогичная проблема, хотя для меня она разбилась, как только я использовал более одного графического процессора. Для нас, исправление было принизить ядро ​​Linux 2.6.32 для

Более подробной информации о нашей проблеме здесь: https://groups.google.com/a/tensorflow.org/forum/#!topic/discuss/UjB7uP7_MMU

+0

Странно, что мы должны изменить версию ядра, чтобы она работала. Возможно, они решают проблему с последней версией. – jrabary