Я использую python на Spark и хотел бы получить csv в dataframe.Получить CSV для Spark dataframe
documentation для Spark SQL странно не дает объяснений CSV в качестве источника.
Я нашел Spark-CSV, однако у меня есть проблемы с двумя частями документации:
"This package can be added to Spark using the --jars command line option. For example, to include it when starting the spark shell: $ bin/spark-shell --packages com.databricks:spark-csv_2.10:1.0.3"
ли мне действительно нужно добавить этот аргумент каждый раз я запускаю pyspark или искровым представить? Это кажется очень неэлегантным. Разве нет способа импортировать его в python, а не перегружать его каждый раз?df = sqlContext.load(source="com.databricks.spark.csv", header="true", path = "cars.csv")
Даже если я сделаю это, это не сработает. Что означает аргумент «source» в этой строке кода? Как просто загрузить локальный файл в linux, скажем, «/Spark_Hadoop/spark-1.3.1-bin-cdh4/cars.csv»?
этого ответ старый, новые версии искры есть более простые способы для достижения этой цели. Обратитесь к ответам https://stackoverflow.com/a/41638342/187355 и https://stackoverflow.com/a/46539901/187355 –