У меня есть искра dataframe со следующими данными (я использую искровой CSV для загрузки данных в):искры dataframe reducebykey как операции
key,value
1,10
2,12
3,0
1,20
есть что-либо подобное, чтобы зажечь RDD reduceByKey
, который может вернуть искру DataFrame как: (в основном, суммируя для одних и тех же ключевых значений)
key,value
1,30
2,12
3,0
(я могу преобразовать данные в РДУ и сделать reduceByKey
операцию, но есть более Спарк DataFrame API способ сделать это?)
Спасибо. Это работает очень хорошо. –
В RDD API я использую 'reduceByKey', поскольку' groupByKey' собирает все значения для ключа в память - если ключ связан со многими значениями, у рабочего может закончиться нехватка памяти. У 'groupBy' тоже есть это ограничение? – jeffreyveon
@jeffreyveon http://stackoverflow.com/q/32902982/1560062, но a) существует более одного механизма фактического groupBy в Spark. Б) если агрегировать подобные операции, все же можно получить OOM по разным причинам. – zero323