У меня есть несколько 4 Гб узлов GPU, поэтому я хочу, чтобы они запускали огромную модель параллельно. Надеюсь, что просто разделение слоев на несколько частей с соответствующими областями устройств просто позволяет моделировать параллелизм, но оказывается, что он не уменьшает площадь памяти для главного узла (задача 0). (Конфигурация 10 узлов - master: 20g, последователи: 2g, 1 конфигурация узла - master: 6 ~ 7g)Каков правильный способ параллелизма модели в тензорном потоке?
Подозрительным является то, что градиенты не распределены, потому что я не настроил для них правильную область устройств. .
моя модель доступна на GitHub (https://github.com/nakosung/tensorflow-wavenet/tree/model_parallel_2)
устройство журнала размещения здесь: https://gist.github.com/nakosung/a38d4610fff09992f7e5569f19eefa57