Я довольно новичок в Spark, и я пытаюсь преобразовать Dataframe в файл паркета в Spark, но еще не успел. documentation говорит, что я могу использовать функцию write.parquet для создания файла. Однако, когда я бег сценария он показывает мне: AttributeError: объект «РД» не имеет атрибута «писать»Как написать паркетный файл с помощью Spark (pyspark)?
from pyspark import SparkContext
sc = SparkContext("local", "Protob Conversion to Parquet ")
# spark is an existing SparkSession
df = sc.textFile("/temp/proto_temp.csv")
# Displays the content of the DataFrame to stdout
df.write.parquet("/output/proto.parquet")
Вы знаете, как сделать эту работу?
Искровная версия, которую я использую, - это Spark 2.0.1 для Hadoop 2.7.3.
'sc.textFile()' возвращает 'RDD'. – mrsrinivas
Да, я просто это понял. Я просто перешел на SparkSession вместо SparkContext – ebertbm