Допустим, у меня есть Спарк Dataset
как это:Спарк Dataset и java.sql.Date
scala> import java.sql.Date
scala> case class Event(id: Int, date: Date, name: String)
scala> val ds = Seq(Event(1, Date.valueOf("2016-08-01"), "ev1"), Event(2, Date.valueOf("2018-08-02"), "ev2")).toDS
Я хочу, чтобы создать новый Dataset
только имя и дата. Насколько я могу судить, я могу либо использовать ds.select()
с TypedColumn
, либо я могу использовать ds.select()
с Column
, а затем конвертировать DataFrame
в Dataset
.
Однако, я не могу получить прежний вариант работы с типом Date
. Например:
scala> ds.select($"name".as[String], $"date".as[Date])
<console>:31: error: Unable to find encoder for type stored in a Dataset. Primitive types (Int, String, etc) and Product types (case classes) are supported by importing spark.implicits._ Support for serializing other types will be added in future releases.
ds.select($"name".as[String], $"date".as[Date])
^
Поздний вариант работы:
scala> ds.select($"name", $"date").as[(String, Date)]
res2: org.apache.spark.sql.Dataset[(String, java.sql.Date)] = [name: string, date: date]
Есть ли способ, чтобы выбрать Date
поля из Dataset
не собирается DataFrame
и обратно?
Это напрямую не решить эту проблему, но она меня на правильном пути. Проблема с использованием 'implicit val encodeDate = org.apache.spark.sql.Encoders.DATE' решает проблему. Я не уверен, почему это не связано с установками по умолчанию. –