2015-07-02 5 views
0

Мои qstat -g c указывает, что у меня есть некоторые мертвые узлы (формально «cdsuE»):продувка Мертвые Вершины от СГЭ

CLUSTER QUEUE     CQLOAD USED RES AVAIL TOTAL aoACDS cdsuE 
-------------------------------------------------------------------------------- 
all.q        0.11  18  0  9  37  0  10 

Есть простой способ очистить или удалить эти узлы из очереди?

SGE достаточно умен, чтобы не выделять им работу, но они загромождают различные дисплеи.

ответ

1

Я делаю это в твердом переплете.

  1. Убить задания «запущены» или застрять на мертвых узлах.
  2. Запуск трубопровода qconf удалить узел

-

qconf -dattr hostgroup hostlist <nodealias> @allhosts' 
qconf -purge queue slots [email protected]<nodealias> 
qconf -dconf <nodealias> 
qconf -de <nodealias> 
+0

Есть ярлык для удаления узла из всех hostlists и очередей, что он является членом? (т. е. вместо того, чтобы жестко кодировать 'all.q'? –

0

Если вы просто хотите, чтобы удалить из очереди с последующим удалением их из очереди с:

qconf -dattr queue hostlist <nodename> all.q

или если они включены через хост-группу

qconf -dattr hostgroup hostlist <nodename> <hostgroup>

Это делает минимальное необходимое, чтобы получить их из очереди, но позволяет легко добавлять их обратно, если вам удастся воскрешать их позже.

Если есть какое-то задание привидения на узле используйте qdel -f, чтобы избавиться от них