Спарк 2.0+
Поскольку databricks/spark-csv
была интегрирована в Спарк, чтение .CSVs является довольно прямо вперед, используя SparkSession
val spark = .builder()
.master("local")
.appName("Word Count")
.getOrCreate()
val df = spark.read.option("header", true).csv(path)
старых версий
После перезапуска моего Искры-оболочка Я понял это сам - может быть полезным для других:
После установки, как описанный here и запуска искровой-оболочки с помощью ./spark-shell --packages com.databricks:spark-csv_2.11:1.4.0
:
scala> val sqlContext = new org.apache.spark.sql.SQLContext(sc)
scala> val df = sqlContext.read.format("com.databricks.spark.csv")
.option("header", "true")
.option("inferSchema", "true")
.load("/home/vb/opt/spark/data/mllib/mydata.csv")
scala> df.printSchema()
root
|-- col1: double (nullable = true)
|-- col2: string (nullable = true)
|-- col3: integer (nullable = true)
, что искра здесь? это искровой контекст? –
Нет, начиная Spark 2.0 spark ссылается на новую 'SparkSession', см. Https://spark.apache.org/docs/2.1.0/api/scala/index.html#org.apache.spark.sql.SparkSession - I добавил к ответу. Благодаря ! – Boern