2016-06-25 2 views
0

Я использовал pyspark [с python 2.7] в ноутбуке ipython на Ubuntu 14.04 довольно успешно, создав специальный профиль для искры и запустив ноутбук, вызывая $ ipython notebook --profile spark. Механизм создания искрового профиля приведен на многих веб-сайтах, но я использовал тот, который указан в here.Как получить доступ к pyspark из jupyter notebook

и $ HOME/.ipython/profile_spark/запуск/00-pyspark-setup.py содержит следующий код

import os 
import sys 
# Configure the environment 
if 'SPARK_HOME' not in os.environ: 
    os.environ['SPARK_HOME'] = '/home/osboxes/spark16' 
# Create a variable for our root path 
SPARK_HOME = os.environ['SPARK_HOME'] 
# Add the PySpark/py4j to the Python Path 
sys.path.insert(0, os.path.join(SPARK_HOME, "python", "build")) 
sys.path.insert(0, os.path.join(SPARK_HOME, "python")) 

Я только что создал новую ВМ Ubuntu 16.04 для моих студентов, где я хочу они запускают программы pyspark в ноутбуке ipython. Python, Pyspark работает достаточно хорошо. Мы используем Spark 1.6.

Однако я обнаружил, что текущие версии ipython notebook [или jupyter notebook] загружены через Anaconda или установлены с помощью sudo pip install ipython .. НЕ ПОДДЕРЖИВАЙТЕ параметр -profile, и все параметры конфигурации должны быть указаны в файл ~/.jupyter/jupyter_notebook_config.py.

Может кто-нибудь, пожалуйста, помогите мне с параметрами конфигурации, которые мне нужно поместить в этот файл? Или есть альтернативное решение? Я попробовал findshark() объяснил here, но не смог заставить его работать. Findspark был установлен, но findpark.init() не удалось, возможно, потому, что он был написан для python 3.

Мой вызов состоит в том, что все работает отлично, когда моя старая установка ipython на моей машине, но мои ученики, которые устанавливают все, начиная от scratch не может заставить pyspark перемещаться по своим виртуальным машинам.

ответ

0

Я нашел смехотворно простой ответ на мой вопрос, посмотрев совет, приведенный в this page.

забыть обо всех файлах конфигурации и т.д. Просто запустите ноутбук с этой командой - $ IPYTHON_OPTS = «ноутбук» pyspark

вот и все.

Очевидно, что пути к SPARK должны быть установлены как given here. , и если вы получите сообщение об ошибке с Py4j, посмотрите на this page.

С этим вы можете отправиться. Контекстное искра имеется в СБН, так что не импортировать его снова

1

я работать с искрой только для целей тестирования локально ~/приложений/искрового 1.6.2-бен-hadoop2.6/bin/pyspark

PYSPARK_DRIVER_PYTHON=jupyter PYSPARK_DRIVER_PYTHON_OPTS="notebook" ~/apps/spark-1.6.2-bin-hadoop2.6/bin/pyspark 
0

с Python 2.7.13 от Anaconda 4.3.0 и 2.1.0 Спарк на Ubuntu 16.04:

$ cd 
$ gedit .bashrc 

Добавить следующие строки (где "*****" является правильный путь):

export SPARK_HOME=*****/spark-2.1.0-bin-hadoop2.7 
export PATH=$SPARK_HOME/bin:$PATH 
export PATH=$SPARK_HOME/sbin:$PATH 
export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH 
export PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH 

Сохранить, а затем сделать:

$ *****/anaconda2/bin/.pip install py4j 
$ cd 
$ source .bashrc 

Проверьте, работает ли он с:

$ ipython 
In [1]: import pyspark 

Для более подробной информации перейдите here

Смежные вопросы