Спарк и Scala: Прочитал в CSV файл, как DataFrame/Dataset

наступающем из R мира я хочу импортировать файл CSV в Спарк (v.1.6.1) с помощью Scala Shell (./spark-shell)Спарк и Scala: Прочитал в CSV файл, как DataFrame/Dataset

Мой .csv имеет заголовок и выглядит как

"col1","col2","col3" 
1.4,"abc",91 
1.3,"def",105 
1.35,"gh1",104

Спасибо.

источник

2016-05-17 Boern

Спарк 2.0+

Поскольку databricks/spark-csv была интегрирована в Спарк, чтение .CSVs является довольно прямо вперед, используя SparkSession

val spark = .builder() 
    .master("local") 
    .appName("Word Count") 
    .getOrCreate() 
val df = spark.read.option("header", true).csv(path)

старых версий

После перезапуска моего Искры-оболочка Я понял это сам - может быть полезным для других:

После установки, как описанный here и запуска искровой-оболочки с помощью ./spark-shell --packages com.databricks:spark-csv_2.11:1.4.0:

scala> val sqlContext = new org.apache.spark.sql.SQLContext(sc) 
scala> val df = sqlContext.read.format("com.databricks.spark.csv") 
    .option("header", "true") 
    .option("inferSchema", "true") 
    .load("/home/vb/opt/spark/data/mllib/mydata.csv") 
scala> df.printSchema() 
root 
|-- col1: double (nullable = true) 
|-- col2: string (nullable = true) 
|-- col3: integer (nullable = true)

источник

2016-05-17 08:55:20 Boern

, что искра здесь? это искровой контекст? –

Нет, начиная Spark 2.0 spark ссылается на новую 'SparkSession', см. Https://spark.apache.org/docs/2.1.0/api/scala/index.html#org.apache.spark.sql.SparkSession - I добавил к ответу. Благодаря ! – Boern

Спарк и Scala: Прочитал в CSV файл, как DataFrame/Dataset

ответ

Смежные вопросы