Я использую модель CIFAR 10 в учебниках для тензоров, чтобы обучать несколько графических процессоров.Масштабирование производительности на нескольких графических процессорах
графических процессоров: NVIDIA 8 * M40
Конфигурация: Tensorflow 0.8.0 , CUDA 7.5, cuDNN 4
Результат выполнения обучения не масштабируемым, чем ожидается. рисунок графика выглядит как закон Амдаля.
the chart of scaling performance across multi GPUs
Это нормально? Если это так, что вы видите в качестве основной причины этого?
Каково ваше использование GPU? –
IMHO это не нормально, «примеры в секунду» должны масштабироваться линейно, если у вас нет узких мест. –
Tensorflow Обучение: 2016-04-22 12: 45: 19,902857: шаг 360, потеря = 4,08 (3166,4 примеры/сек; 0,040 сек/партии) загрузка процессора: топ - 12:47:45 до 6 дней, 20:22, 2 пользователей, средняя загрузка: 31.18, 17.92, 7.67 Задачи: 346 всего, 1 бег, 345 спальных мест, 0 остановок, 0 зомби % Цена за штуку: 55.3 us, 23.3 sy, 0.0 ni, 21.1 id , 0.0 wa, 0.0 hi, 0.2 si, 0.0 st KiB Mem: 65679412 всего, 46795768 бесплатно, 7339948 использовано, 11543696 buff/cache KiB Swap: 0 всего, 0 свободных, 0 б/у. 55707412 avail Mem –