Я экспериментирую с Hadoop и Spark, так как компания, над которой я работаю, готовится начать разворачивать Hadoop и хочет использовать Spark и другие ресурсы, чтобы делать много машинного обучения по нашим данным.
Большая часть этого приходится на меня, поэтому я готовлюсь, изучая самостоятельно.Spark и IPython on CentOS 7
У меня есть машина, которую я установил как единый узел Hadoop-кластера.
Вот что у меня есть:
- CentOS 7 (минимальный сервер установки, добавил Xorg и OpenBox для GUI)
- Python 2.7
- Hadoop 2.7.2
- Спарк 2.0.0
Я следовал за эти руководства, чтобы установить это:
http://www.tecmint.com/install-configure-apache-hadoop-centos-7/
http://davidssysadminnotes.blogspot.com/2016/01/installing-spark-centos-7.html
При попытке запустить 'pyspark' я получаю следующее:
IPYTHON and IPYTHON_OPTS are removed in Spark 2.0+. Remove these from the environment and set PYSPARK_DRIVER_PYTHON and PYSPARK_DRIVER_PYHTON_OPTS instead.
Я открыл файл pyspark в VI и исследовал его.
Я вижу много вещей, которые происходят там, но я не знаю, с чего начать делать исправления, которые мне нужно сделать.
Моя установка Спарк под:
/opt/spark-latest
pyspark находится под /opt/spark-latest/bin/
и моей установки Hadoop (хотя я не думаю, что это факторы, в) является /opt/hadoop/
.
Я знаю, что должно быть какое-то изменение, которое мне нужно внести в файл pyspark, я просто не знаю, где быть на этом.
Я сделал некоторые поисковые запросы и нашел ссылки на похожие вещи, но ничего, что указывало шаги, чтобы исправить это.
Может ли кто-нибудь дать мне толчок в правильном направлении?
Вы искали 'IPYTHON' и' IPYTHON_OPTS', а затем измените на переменные, указанные в сообщении? –
И если ваша компания «начнет разворачивать Hadoop», я не думаю, что Spark 2.0 официально поддерживается в основных дистрибутивах Hadoop. –
Я нашел ссылку на эту проблему: http://stackoverflow.com/questions/30518362/how-do-i-set-the-drivers-python-version-in-spark, но внесение этих изменений по-прежнему приводит к ошибке выше. Я поместил эти переменные среды в свой .bash_profile. Я не знал, что Spark 2.0 еще не полностью принят - какую версию я должен использовать, чтобы создать производственную точку зрения? – azdatasci