Я хотел бы воспользоваться функцией контрольной точки MPI, чтобы сохранить свою работу. Согласно предложению на https://wiki.mpich.org/mpich/index.php/CheckpointingИспользование контрольной точки MPI
Я могу отправить SIGUSR1 в mpiexec (в моем случае я отправлю его mpirun) для запуска контрольной точки. Однако, когда я делаю, так что я не вижу файл, сохраненный в моей контрольной точке директории, я указанный с -ckpoint префиксом
Вот мой mpirun -info выхода HYDRA build details: Version: 4.1 Update 1 Release Date: 20130522 Process Manager: pmi Bootstrap servers available: ssh rsh fork slurm srun ll llspawn.stdio lsf blaunch sge qrsh persist jmi Resource management kernels available: slurm srun ll llspawn.stdio lsf blaunch sge qrsh pbs Checkpointing libraries available: blcr Demux engines available: poll select
Моей командная строка:
mpirun -ckpointlib blcr -ckpoint-prefix /home/user/temp/ckpoint -ckpoint-interval 1800 -np 274 $PROGPATH/myapp
путь я посылаю сигнал kill -s USR1 1900
, 1900 является Идентификатором из miprun. Всякий раз, когда я посылаю сигнал, программа просто заканчивается. Однако, нет. У кого-нибудь есть опыт на контрольно-пропускном пункте MPI?