Масштабирование производительности на нескольких графических процессорах

Я использую модель CIFAR 10 в учебниках для тензоров, чтобы обучать несколько графических процессоров.Масштабирование производительности на нескольких графических процессорах

Источник: https://github.com/tensorflow/tensorflow/blob/r0.8/tensorflow/models/image/cifar10/cifar10_multi_gpu_train.py

графических процессоров: NVIDIA 8 * M40

Конфигурация: Tensorflow 0.8.0 , CUDA 7.5, cuDNN 4

Результат выполнения обучения не масштабируемым, чем ожидается. рисунок графика выглядит как закон Амдаля.

the chart of scaling performance across multi GPUs

Это нормально? Если это так, что вы видите в качестве основной причины этого?

источник

2016-04-22 A. J. Polk

Каково ваше использование GPU? –

IMHO это не нормально, «примеры в секунду» должны масштабироваться линейно, если у вас нет узких мест. –

Tensorflow Обучение: 2016-04-22 12: 45: 19,902857: шаг 360, потеря = 4,08 (3166,4 примеры/сек; 0,040 сек/партии) загрузка процессора: топ - 12:47:45 до 6 дней, 20:22, 2 пользователей, средняя загрузка: 31.18, 17.92, 7.67 Задачи: 346 всего, 1 бег, 345 спальных мест, 0 остановок, 0 зомби % Цена за штуку: 55.3 us, 23.3 sy, 0.0 ni, 21.1 id , 0.0 wa, 0.0 hi, 0.2 si, 0.0 st KiB Mem: 65679412 всего, 46795768 бесплатно, 7339948 использовано, 11543696 buff/cache KiB Swap: 0 всего, 0 свободных, 0 б/у. 55707412 avail Mem –

Попытайтесь использовать GPU как можно выше (> 80%). Скорее всего, данные с диска не доставлены достаточно быстро, поэтому графические процессоры большую часть времени простаивают.

источник

2017-10-24 11:49:27 user6715080

Масштабирование производительности на нескольких графических процессорах

ответ

Смежные вопросы