Поскольку этот формат не является стандартным, вы должны использовать UNIX_TIMESTAMP функцию, чтобы разобрать строку и преобразовать в тип временной метки:
import org.apache.spark.sql.functions._
// Example data
val df = Seq(
Tuple1("04-NOV-16 03.36.13.000000000 PM"),
Tuple1("06-NOV-15 03.42.21.000000000 PM"),
Tuple1("05-NOV-15 03.32.05.000000000 PM"),
Tuple1("06-NOV-15 03.32.14.000000000 AM")
).toDF("stringCol")
// Timestamp pattern found in string
val pattern = "dd-MMM-yy hh.mm.ss.S a"
// Creating new DataFrame and ordering
val newDF = df
.withColumn("timestampCol", unix_timestamp(df("stringCol"), pattern).cast("timestamp"))
.orderBy("timestampCol")
newDF.show(false)
Результат:
+-------------------------------+---------------------+
|stringCol |timestampCol |
+-------------------------------+---------------------+
|05-NOV-15 03.32.05.000000000 PM|2015-11-05 15:32:05.0|
|06-NOV-15 03.32.14.000000000 AM|2015-11-06 03:32:14.0|
|06-NOV-15 03.42.21.000000000 PM|2015-11-06 15:42:21.0|
|04-NOV-16 03.36.13.000000000 PM|2016-11-04 15:36:13.0|
+-------------------------------+---------------------+
Подробнее о UNIX_TIMESTAMP и другие утилиты функции можно найти here.
Для построения формата временных меток, можно обратиться к SimpleDateFormatter docs
Edit 1: как сказал pheeleeppoo, вы можете заказать непосредственно выражением, вместо того, чтобы создать новый столбец, предполагается, что вы хотите сохранить только строку типизированный столбец в вашем dataframe:
val newDF = df.orderBy(unix_timestamp(df("stringCol"), pattern).cast("timestamp"))
Редактирование 2: Пожалуйста, обратите внимание, что точность функции UNIX_TIMESTAMP в секундах, так что если миллисекунды действительно важны, UDF может быть использован:
def myUDF(p: String) = udf(
(value: String) => {
val dateFormat = new SimpleDateFormat(p)
val parsedDate = dateFormat.parse(value)
new java.sql.Timestamp(parsedDate.getTime())
}
)
val pattern = "dd-MMM-yy hh.mm.ss.S a"
val newDF = df.withColumn("timestampCol", myUDF(pattern)(df("stringCol"))).orderBy("timestampCol")
вы пробовали что-нибудь? – mtoto
Да. Пробное литье. Это не сработало. –
scala или python? –