2016-11-22 3 views
1

Как импортировать pyspark в ноутбук google-cloud-datalab? Даже после настройки PYTHONPATH, SPARK_HOME на узле, это не работает? Я что-то пропустил?pyspark на Google Cloud Datalab

ImportErrorTraceback (most recent call last) 
    <ipython-input-4-c15ae3402d12> in <module>() 
    ----> 1 import pyspark 

ImportError: No module named pyspark 

ответ

0

Datalab в настоящее время не поддерживает (Py) Спарк еще (также проверить их roadmap). В Облачной платформе Google самым простым вариантом на данный момент является развертывание кластера DataProc с ноутбуком Jupyter, см. Документацию here.

Обратите внимание, что команда Dataproc также находится в StackOverflow, поэтому он сможет предоставить вам дополнительную информацию о дорожной карте.

1

Как сказал Фематич, к сожалению, он пока не поддерживается. Однако, Datalab is open source, если вам кажется, что вы можете изменить Dockerfile, чтобы добавить pyspark и создать свой собственный образ. Вы также можете отправить запрос на тяну, если вы думаете, что это то, что может заинтересовать и другие люди.

0

Вы можете запустить DATALAB удобно на облаке Dataproc через действие инициализации:

https://github.com/GoogleCloudPlatform/dataproc-initialization-actions/tree/master/datalab

Это позволит вам взаимодействовать с окружающей средой pySpark.

В качестве альтернативы вы можете редактировать изображение Dockaproc Docker, чтобы включить искру (с помощью pyspark). Это позволит вам запускать Datalab с искру где угодно (локально или виртуальные машины).

Смежные вопросы