2014-02-24 2 views
2

Я получаю кластер, из которого узлы соединены в жировом дереве IB. Коммутаторы QLogic 12300.Проблема подключения Infiniband

Проблема, которую я имею, это определенные узлы, которые не могут разговаривать друг с другом. Даже есть другие узлы, которые могут разговаривать с обоими затронутыми узлами.

Я использовал ibtracert для устранения проблемы. Удивительно, если я запустил эту команду на отдельном узле, который может разговаривать с обоими узлами, они прекрасны и сообщают о возможном маршруте.

Однако команда ibtracert запущена в ошибку, если я выпустил ее с двух удаленных узлов.

Могу ли я спросить, какова вероятная причина этого?

Спасибо.

+0

Пожалуйста, подумайте о повторении вашего вопроса на http://serverfault.com –

ответ

2

Два HCAs не могут разговаривать друг с другом, потому что именно так настроена маршрутизация в вашей подсети. Тот факт, что вы можете говорить с третьей машины на обе проблемные машины, указывает на то, что это не проблема хостов, а проблема в подсети.

Infiniband routing - сложная проблема, и только по вашему описанию я не могу сказать, как это исправить.

В общем, диспетчер подсети вычисляет и настраивает маршрутизацию на всех коммутаторах. Что вы используете для диспетчера подсети? Является ли OpenSM, который выполняется на каком-то хосте, или SM Qlogic, который запускается на одном из ключей?

Если это Qlogic, вам нужно перейти в их интерфейс управления и изменить/исправить алгоритм маршрутизации. Если это OpenSM, вы можете запустить его с помощью маршрутизации «minhop» (запустите "opensm -h", чтобы увидеть использование) - это должно устранить проблему. Однако это не будет проблемой для FIX. У вас, вероятно, есть что-то плохое в топологии подсети, и именно здесь вам нужно сосредоточиться, если/когда-то маршрутизация в minhop решает проблему.

+0

Спасибо за ответ. Очень полезно. Это SMG Qlogic, встроенный в один из основных коммутаторов. Я использую маршрутизацию жира. Я заметил, что между одним из основных переключателей и листовым выключателем есть два кабеля, показывающих состояние «link up», но статус не активен, а «инициализация». Означает ли это, что два кабеля плохо? Если плохо, почему он показывает ссылку? – Wei

+0

Я не уверен, что вы имеете в виду «состояние» и «статус». Каждый порт имеет два типа состояний: физический и логический. «Состояние» и «статус» - это, вероятно, словарь Qlogic. Я предполагаю, что вы видите физическое состояние как «соединение» и логическое как «init». Тот факт, что это состояние, которое вы видите на портах, которые подключены к коммутаторам, подсказывает, что ваш SM сбит/застрял или есть какая-то проблема на одном из переключателей. Кабели были бы моим самым последним подозреваемым здесь. Проверьте свой SM (возможно, перезапустите его) или перезагрузите основной коммутатор, у которого есть проблема, или переключатель листа. – kliteyn

+0

Я видел ссылки, застрявшие в инициализации раньше, и проследил его до плохого порта на ib-переключателе. Из-за количества вещей, проходящих через этот коммутатор, я не смог выполнить тестовую перезагрузку и просто обошел порт. – MrBooks

Смежные вопросы