2016-03-25 4 views
1

Я могу запустить jupyter с pyspark успешно использует https://cloud.google.com/dataproc/tutorials/jupyter-notebookдобавления пакетов pyspark используя jupyter ноутбук

Мой вопрос - если я должен был добавить пакеты pyspark (как искровым CSV или graphframes) и использовать их через ноутбук, что лучше всего подходит? Я могу добавить пакет в новое задание pyspark, используя опцию --пакеты, но как подключить этот новый контекст pyspark к ноутбуку?

ответ

1

Чтобы заставить ноутбук работать, вы действительно захотите, чтобы установка ноутбука сама подбирала нужные пакеты. Поскольку действие инициализации, которое вы связали, работает, чтобы гарантировать, что Jupyter будет использовать настроенные каталоги Spark для кластера и, таким образом, получить все необходимые конфигурации YARN/файловой системы/lib, лучший способ сделать это - добавить свойство в время создания кластера, а не время работы Непокорности:

gcloud dataproc clusters create \ 
    --properties spark:spark.jars.packages=com.databricks:spark-csv_2.11:1.2.0 

Per this StackOverflow error, установив spark-defaults.conf свойство spark.jars.packages является более портативным эквивалентом указания параметра --packages, так как --packages просто синтаксическим сахар в свече скорлупе/искровой отправить/pyspark обертки, который устанавливает запись конфигурации spark.jars.packages в любом случае.

Смежные вопросы