1

В ряде выступлений (например, 1, 2, 3) на управлении кластером, одна из задач планировщика заключается в сокращении скоординированных сбоев путем распределения задач одного задания через вычислительные узлы, которые меньше вероятно, не сработают вместе.Влияние коррелированных сбоев на производительности кластера

Почему коррелированные неудачи задач в рамках одного задания нежелательны? Если я правильно понял, все задачи должны завершиться до завершения задания. Поэтому, на первый взгляд, лучше, если сбои задачи ограничены небольшим количеством рабочих мест, так что только те рабочие места испытывают задержку из-за повторной подачи неудавшихся задач.

Я бы понял, были ли все задачи в задании просто реплицированы одна и та же работа, но с сотнями задач на одно задание, которое не может быть выполнено (возможно, существует 3-4 идентичных задачи для цели отказоустойчивости и Я понимаю, почему важно сократить коррелированные неудачи для этих групп задач).

ответ

0

Я понял, что я пропустил. Я как-то думал о работе, которая разбивает работу статически через заранее определенный набор задач.

На самом деле, в контексте управления кластером работа динамически разделяется между задачами. Таким образом, задачи - это как рабочие: они сообщают о своей доступности, скажем, балансировщику нагрузки, а затем получают динамически назначенные некоторые части работы.

С помощью этого разъяснения все очевидно.

Если задача не удалась, балансировщик нагрузки просто перераспределит соответствующую работу на другие задачи с небольшим ухудшением метрики производительности работы (время до завершения в случае пакетного задания; задержка в случае служебного задания). Однако, если слишком много задач не срабатывают в одной задаче, производительность работы будет слишком много. Именно поэтому коррелированные неудачи нежелательны.

Смежные вопросы