Использование контрольной точки MPI

Я хотел бы воспользоваться функцией контрольной точки MPI, чтобы сохранить свою работу. Согласно предложению на https://wiki.mpich.org/mpich/index.php/Checkpointing Использование контрольной точки MPI

Я могу отправить SIGUSR1 в mpiexec (в моем случае я отправлю его mpirun) для запуска контрольной точки. Однако, когда я делаю, так что я не вижу файл, сохраненный в моей контрольной точке директории, я указанный с -ckpoint префиксом

Вот мой mpirun -info выхода HYDRA build details: Version: 4.1 Update 1 Release Date: 20130522 Process Manager: pmi Bootstrap servers available: ssh rsh fork slurm srun ll llspawn.stdio lsf blaunch sge qrsh persist jmi Resource management kernels available: slurm srun ll llspawn.stdio lsf blaunch sge qrsh pbs Checkpointing libraries available: blcr Demux engines available: poll select

Моей командная строка:

mpirun -ckpointlib blcr -ckpoint-prefix /home/user/temp/ckpoint -ckpoint-interval 1800 -np 274 $PROGPATH/myapp

путь я посылаю сигнал kill -s USR1 1900, 1900 является Идентификатором из miprun. Всякий раз, когда я посылаю сигнал, программа просто заканчивается. Однако, нет. У кого-нибудь есть опыт на контрольно-пропускном пункте MPI?

источник

2016-04-04 user2494308

Думаю, что я понял. Я посылаю USR1 в mpirun, но я должен отправить его вместо mpiexec.hydra. Несмотря на то, что в одной из статей онлайн говорится, что mpirun и mpiexec - это одно и то же.

источник

2016-04-04 03:15:25 user2494308

Использование контрольной точки MPI

ответ

Смежные вопросы