Я экспериментирую Spark с Java 8, чтобы провести анализ CSV-файла.Совокупные значения Iterable с Spark API
Я хочу вычислить сумму элементов по ключевым словам.
My RDD имеет тип JavaPairRDD<String, Iterable<Record>>
, и я хочу преобразовать это RDD в JavaPairRDD<String, Integer>
, где целочисленное значение является суммой всех элементов в итерируемой коллекции.
Запись - это простой java POJO.
Любая идея о том, как это сделать?
JavaPairRDD<String, Iterable<Record>> distinct = map
.filter(record -> record.circonference > 170)
.groupBy(record -> record.espece)
.distinct();
Мой POJO класс
public static class Record implements Serializable {
private String geoPoint;
private float circonference;
private String addresse;
private float hauteur;
private String espece;
private String variete;
private String datePlantation;