Я оцениваю различные библиотеки многопроцессорности для отказоустойчивого приложения. Мне в основном нужен любой процесс, который может быть разрешен, без остановки всего приложения.Что произойдет, если сбой MPI-процесса?
Я могу сделать это, используя системный вызов fork(). Предел здесь заключается в том, что процесс может быть создан только на одной машине.
Могу ли я сделать то же самое с MPI? Если процесс, созданный с ошибками MPI, может привести к продолжению работы родительского процесса и, в конечном итоге, создать новый процесс?
Есть ли альтернативная (возможно, многоплатформенная и открытая исходная) библиотека для получения того же результата?
Как сообщает here, MPI 4.0 будет иметь поддержку отказоустойчивости.
Используйте свою любимую поисковую систему для отказоустойчивого MPI *, чтобы получить представление о текущем состоянии исследований в этой области. Сейчас, насколько мне известно, класс MPI, который может если происходит сбой процесса. –
Большинство реализаций MPI заметят, что один процесс скончался и завершит работу всего MPI. Отказоустойчивость не попала в MPI-3, поэтому многие разработчики решили отложить построение FT в свои библиотеки (или наоборот). –