Я хочу переписать часть моего кода, написанного с помощью RDD, для использования DataFrames. Он работал довольно гладко, пока я не нашел это:Как выполнять пользовательские операции с GroupedData в Spark?
events
.keyBy(row => (row.getServiceId + row.getClientCreateTimestamp + row.getClientId, row))
.reduceByKey((e1, e2) => if(e1.getClientSendTimestamp <= e2.getClientSendTimestamp) e1 else e2)
.values
просто начать с
events
.groupBy(events("service_id"), events("client_create_timestamp"), events("client_id"))
но что дальше? Что делать, если я хотел бы перебрать все элементы в текущей группе? Возможно ли это? Спасибо заранее.
получил, спасибо. – homar