Я новичок в Spark Streaming. Существует проект, использующий Spark Streaming, входной сигнал представляет собой пару пары значений ключа, например «productid, price».Как создать пары ключ-значение DStream в Spark Streaming
Требование состоит в том, чтобы обрабатывать каждую строку как отдельную транзакцию и запускать RDD каждые 1 секунду.
В каждом интервале я должен рассчитать общую стоимость для каждого отдельного продукта, как
select productid, sum(price) from T group by productid
Моя текущая мысль, что я должен сделать следующие шаги 1) разделить всю линию с \ n val lineMap = lines.map {x => x.split ("\ n")}
2) разделите каждую строку на "," val recordMap = lineMap.map {x => x.map {y => y.split (",")}}
Теперь я смущен о том, как сделать первый столбец как ключ и второй столбец как значение, а также использовать reduceByKey функцию, чтобы получить общую сумму.
Просьба сообщить.
Благодаря