2016-08-05 18 views
5

Допустим, у меня есть Спарк Dataset как это:Спарк Dataset и java.sql.Date

scala> import java.sql.Date 
scala> case class Event(id: Int, date: Date, name: String) 
scala> val ds = Seq(Event(1, Date.valueOf("2016-08-01"), "ev1"), Event(2, Date.valueOf("2018-08-02"), "ev2")).toDS 

Я хочу, чтобы создать новый Dataset только имя и дата. Насколько я могу судить, я могу либо использовать ds.select() с TypedColumn, либо я могу использовать ds.select() с Column, а затем конвертировать DataFrame в Dataset.

Однако, я не могу получить прежний вариант работы с типом Date. Например:

scala> ds.select($"name".as[String], $"date".as[Date]) 
<console>:31: error: Unable to find encoder for type stored in a Dataset. Primitive types (Int, String, etc) and Product types (case classes) are supported by importing spark.implicits._ Support for serializing other types will be added in future releases. 
       ds.select($"name".as[String], $"date".as[Date]) 
                ^

Поздний вариант работы:

scala> ds.select($"name", $"date").as[(String, Date)] 
res2: org.apache.spark.sql.Dataset[(String, java.sql.Date)] = [name: string, date: date] 

Есть ли способ, чтобы выбрать Date поля из Dataset не собирается DataFrame и обратно?

ответ

4

Я бил головой о проблемы, подобные этим в течение всего дня. Я думаю, вы можете решить вашу проблему одной строкой:

implicit val e: Encoder[(String, Date)] = org.apache.spark.sql.Encoders.kryo[(String,Date)] 

По крайней мере, это работало для меня.

EDIT

В этих случаях, проблема заключается в том, что для большинства Dataset операций Спарк 2 требует Encoder, которая хранит информацию о схеме (предположительно, для оптимизации). Информация о схеме принимает вид неявного параметра (и у группы из Dataset операций есть такой тип неявного параметра).

В этом случае OP нашел правильную схему для java.sql.Date так следующих работ:

implicit val e = org.apache.spark.sql.Encoders.DATE 
+2

Это напрямую не решить эту проблему, но она меня на правильном пути. Проблема с использованием 'implicit val encodeDate = org.apache.spark.sql.Encoders.DATE' решает проблему. Я не уверен, почему это не связано с установками по умолчанию. –

Смежные вопросы