Я пытаюсь создать несколько скриптов для pyspark, используя pycharm. Хотя я нашел несколько объяснений о том, как их подключить (например, How to link PyCharm with PySpark?), не все работает правильно.Работает на pyspark из pycharm
То, что я в основном установить переменные среды правильно:
echo $PYTHONPATH
:/usr/local/spark/python:/usr/local/spark/python/lib/py4j-0.9-src.zip
echo $SPARK_HOME
/usr/local/spark
и в коде у меня есть:
appName = "demo1"
master = "local"
conf = SparkConf().setAppName(appName).setMaster(master)
sc = SparkContext(conf=conf)
sqlContext = SQLContext(sc)
Проблема заключается в том, что многие функции агрегации dataframe появляются как ошибки. Например, у меня есть следующие строки:
from pyspark.sql import functions as agg_funcs
maxTimeStamp = base_df.agg(agg_funcs.max(base_df.time)).collect()
Еще PyCharm претензии: Не удается найти ссылку «Макс» в functions.py Похожая apepars ошибок для большинства агрегатных функций (например, колонка, счетчик)
Как бы Я это исправить?
Это по-прежнему актуально в версии 1.6.1 –
По-прежнему верно с последними PySpark и последними PyCharm! См. Проблему, связанную ниже:/ – Rmatt