Я использовал pyspark [с python 2.7] в ноутбуке ipython на Ubuntu 14.04 довольно успешно, создав специальный профиль для искры и запустив ноутбук, вызывая $ ipython notebook --profile spark. Механизм создания искрового профиля приведен на многих веб-сайтах, но я использовал тот, который указан в here.Как получить доступ к pyspark из jupyter notebook
и $ HOME/.ipython/profile_spark/запуск/00-pyspark-setup.py содержит следующий код
import os
import sys
# Configure the environment
if 'SPARK_HOME' not in os.environ:
os.environ['SPARK_HOME'] = '/home/osboxes/spark16'
# Create a variable for our root path
SPARK_HOME = os.environ['SPARK_HOME']
# Add the PySpark/py4j to the Python Path
sys.path.insert(0, os.path.join(SPARK_HOME, "python", "build"))
sys.path.insert(0, os.path.join(SPARK_HOME, "python"))
Я только что создал новую ВМ Ubuntu 16.04 для моих студентов, где я хочу они запускают программы pyspark в ноутбуке ipython. Python, Pyspark работает достаточно хорошо. Мы используем Spark 1.6.
Однако я обнаружил, что текущие версии ipython notebook [или jupyter notebook] загружены через Anaconda или установлены с помощью sudo pip install ipython .. НЕ ПОДДЕРЖИВАЙТЕ параметр -profile, и все параметры конфигурации должны быть указаны в файл ~/.jupyter/jupyter_notebook_config.py.
Может кто-нибудь, пожалуйста, помогите мне с параметрами конфигурации, которые мне нужно поместить в этот файл? Или есть альтернативное решение? Я попробовал findshark() объяснил here, но не смог заставить его работать. Findspark был установлен, но findpark.init() не удалось, возможно, потому, что он был написан для python 3.
Мой вызов состоит в том, что все работает отлично, когда моя старая установка ipython на моей машине, но мои ученики, которые устанавливают все, начиная от scratch не может заставить pyspark перемещаться по своим виртуальным машинам.