Чтобы заставить ноутбук работать, вы действительно захотите, чтобы установка ноутбука сама подбирала нужные пакеты. Поскольку действие инициализации, которое вы связали, работает, чтобы гарантировать, что Jupyter будет использовать настроенные каталоги Spark для кластера и, таким образом, получить все необходимые конфигурации YARN/файловой системы/lib, лучший способ сделать это - добавить свойство в время создания кластера, а не время работы Непокорности:
gcloud dataproc clusters create \
--properties spark:spark.jars.packages=com.databricks:spark-csv_2.11:1.2.0
Per this StackOverflow error, установив spark-defaults.conf
свойство spark.jars.packages
является более портативным эквивалентом указания параметра --packages
, так как --packages
просто синтаксическим сахар в свече скорлупе/искровой отправить/pyspark обертки, который устанавливает запись конфигурации spark.jars.packages
в любом случае.