2012-05-01 1 views
3

Я пытаюсь выполнить код MPI и CUDA в кластере. Код отлично работает на одной машине, но когда я пытаюсь запустить его на кластере я получаю сообщение об ошибке:при загрузке разделяемых библиотек: libcudart.so.4: не удается открыть файл общих объектов: такой файл или каталог отсутствует

ошибка при загрузке разделяемых библиотек: libcudart.so.4: не удается открыть общий объектный файл: Нет такого файла или каталога

Я проверил свои PATH и LD_PATH, и все выглядит нормально. У меня есть .bashrc файл, который содержит следующие данные -

экспорт PATH = $ PATH:/USR/местные/Библиотека /:/USR/местные/Библиотека/OpenMPI:/USR/местные/CUDA/бен экспорт LD_LIBRARY_PATH = $ LD_LIBRARY_PATH:/usr/local/lib:/usr/local/lib/openmpi /:/usr/local/cuda/lib

Все машины имеют такую ​​же установку CUDA и OpenMPI.

У меня также есть/USR/местные/Cuda/Библиотека в /etc/ld.so.conf

Может кто-нибудь помочь мне с этим. Эта проблема действительно раздражает.

Спасибо.

+0

Что вы используете для инициализации кластера? – rudolph9

ответ

5

Если вы отправляете пакетное задание на кластере, добавьте команды, как

echo $LD_LIBRARY_PATH 
ldd ./your_app 

для вашего пакетного сценария. Это должно помочь отладить проблему.

Также убедитесь, что вы экспортируете переменные среды в mpirun. Например, в OpenMPI вы запускаете свой код с помощью

mpirun -x LD_LIBRARY_PATH ... 
+0

mpirun -x LD_LIBRARY_PATH решает мою проблему. Спасибо, кучи. вы сделали мой день. – Coder

Смежные вопросы