2016-08-31 2 views
1

Я экспериментирую с Hadoop и Spark, так как компания, над которой я работаю, готовится начать разворачивать Hadoop и хочет использовать Spark и другие ресурсы, чтобы делать много машинного обучения по нашим данным.
Большая часть этого приходится на меня, поэтому я готовлюсь, изучая самостоятельно.Spark и IPython on CentOS 7

У меня есть машина, которую я установил как единый узел Hadoop-кластера.
Вот что у меня есть:

  • CentOS 7 (минимальный сервер установки, добавил Xorg и OpenBox для GUI)
  • Python 2.7
  • Hadoop 2.7.2
  • Спарк 2.0.0

Я следовал за эти руководства, чтобы установить это:

При попытке запустить 'pyspark' я получаю следующее:

IPYTHON and IPYTHON_OPTS are removed in Spark 2.0+. Remove these from the environment and set PYSPARK_DRIVER_PYTHON and PYSPARK_DRIVER_PYHTON_OPTS instead. 

Я открыл файл pyspark в VI и исследовал его.
Я вижу много вещей, которые происходят там, но я не знаю, с чего начать делать исправления, которые мне нужно сделать.
Моя установка Спарк под:

/opt/spark-latest 

pyspark находится под /opt/spark-latest/bin/ и моей установки Hadoop (хотя я не думаю, что это факторы, в) является /opt/hadoop/.
Я знаю, что должно быть какое-то изменение, которое мне нужно внести в файл pyspark, я просто не знаю, где быть на этом.
Я сделал некоторые поисковые запросы и нашел ссылки на похожие вещи, но ничего, что указывало шаги, чтобы исправить это.

Может ли кто-нибудь дать мне толчок в правильном направлении?

+0

Вы искали 'IPYTHON' и' IPYTHON_OPTS', а затем измените на переменные, указанные в сообщении? –

+0

И если ваша компания «начнет разворачивать Hadoop», я не думаю, что Spark 2.0 официально поддерживается в основных дистрибутивах Hadoop. –

+0

Я нашел ссылку на эту проблему: http://stackoverflow.com/questions/30518362/how-do-i-set-the-drivers-python-version-in-spark, но внесение этих изменений по-прежнему приводит к ошибке выше. Я поместил эти переменные среды в свой .bash_profile. Я не знал, что Spark 2.0 еще не полностью принят - какую версию я должен использовать, чтобы создать производственную точку зрения? – azdatasci

ответ

1

Если вы только начинаете изучать совместимость Spark в среде Hadoop, в настоящий момент Spark 2.0 официально не поддерживается (Cloudera CDH или Hortonworks HDP). Я пойду дальше и предположим, что ваша компания не стоит Hadoop за пределами одного из этих дистрибутивов (потому что поддержка предприятия).

Это, как говорится, последняя версия поддерживаемой версии Spark 1.6 (и Hadoop 2.6). Причина в том, что в Spark 2.0 есть несколько нарушений.

Теперь, если вы используете Spark 1.6, вы не должны получать эти ошибки. Анаконда не является полностью необходимой (оболочки PySpark и Scala должны просто работать). Если вы используете ноутбуки Jupyter, вы можете посмотреть Apache Toree, и у меня был хороший успех в создании ноутбуков. В противном случае Apache Zeppelin, вероятно, является рекомендуемой средой для ноутбуков в производственном кластере Hadoop.