Если на одном узле возникла проблема и на этом компьютере произошел сбой исполняемого файла, большинство заданий в очереди завершатся ошибкой. Это происходит потому, что первое задание быстро объявляется неудачным, машина снова становится доступной и выполняет другое задание, которое снова быстро выходит из строя. Затем это продолжается до тех пор, пока очередь не станет пустой и все задания не завершатся ошибкой.

Есть ли какой-либо механизм для изоляции узла с проблемой, чтобы другие узлы могли обработать оставшиеся задания. Что-то вроде объявления узла неисправным. Поддерживает ли это HPC?

0
Ray 28 Дек 2017 в 06:53

1 ответ

Лучший ответ

Возможно, вы захотите добавить хост в список исключенных узлов, чтобы избежать отправки задач для этого хоста.

Вот как это работает:

Если владелец задания или администратор кластера замечает, что задачи в задании постоянно терпят неудачу на конкретном узле, они могут добавить этот узел в Свойство задания Excluded Nodes. Когда будет достигнут предел исключенных узлов, попытки добавить дополнительные узлы в список терпят неудачу. Для дополнительной информации, см. Установка и удаление исключенных узлов для заданий .

0
LuckyAshnar 3 Янв 2018 в 08:55