В ряде выступлений (например, 1, 2, 3) на управлении кластером, одна из задач планировщика заключается в сокращении скоординированных сбоев путем распределения задач одного задания через вычислительные узлы, которые меньше вероятно, не сработают вместе.Влияние коррелированных сбоев на производительности кластера
Почему коррелированные неудачи задач в рамках одного задания нежелательны? Если я правильно понял, все задачи должны завершиться до завершения задания. Поэтому, на первый взгляд, лучше, если сбои задачи ограничены небольшим количеством рабочих мест, так что только те рабочие места испытывают задержку из-за повторной подачи неудавшихся задач.
Я бы понял, были ли все задачи в задании просто реплицированы одна и та же работа, но с сотнями задач на одно задание, которое не может быть выполнено (возможно, существует 3-4 идентичных задачи для цели отказоустойчивости и Я понимаю, почему важно сократить коррелированные неудачи для этих групп задач).