2013-09-18 3 views
0

У меня есть сценарий, который отправляет несколько заданий для параллельной работы в очереди SGE и другой скрипт сбора, который выполняется, когда этот список заданий завершен. Я использую -hold_jid wc_job_list, чтобы выполнить выполнение скрипта сбора при выполнении параллельных заданий.SGE hold_jid и улавливание неудачных заданий

Я только заметил, что иногда некоторые из параллельных заданий терпят неудачу, и скрипт сбора данных все еще работает. В документации говорится, что:

Если какое-либо из упомянутых рабочих мест выходов с кодом выхода 100, представленный задание останется неподходящим для исполнения.

Как я могу поймать статус выхода с несостоявшимися отказами, так что, если какой-либо из них по какой-либо причине не работает, сценарий сбора не выполняется или появляется сообщение об ошибке?

ответ

1

В случае BASH, можно разобрать статус выхода вашей программы (можно ссылаться как $?), и в случае не является 0 (который является статус выхода для нормального завершения), вызовите exit 100 в конце ваш jobcript.

Проблема в том, что ваше задание останется в очереди в состоянии Eqw и должно быть удалено вручную.

UPDATE: Для каждого задания вы установили для Eqw администраторов получить по электронной почте ...

Смежные вопросы