Я использую искру 1.2 с scala и имею пару RDD с (String, String). Образец записи выглядит следующим образом:Удалить дубликаты ключей от Spark Scala
<Key, value>
id_1, val_1_1; val_1_2
id_2, val_2_1; val_2_2
id_3, val_3_1; val_3_2
id_1, val_4_1; val_4_2
Я просто хочу, чтобы удалить все записи с дубликатом ключа, поэтому в приведенном выше примере, четвёртая запись будет удалена, поскольку ID_1 является дубликат ключа.
Помощь Pls.
Спасибо.
Где есть дубликаты ключей, как вы решите, какое значение сохранить? – mattinbits
Его просто первое значение, которое мне нужно. – user2200660
Проблема в том, что, когда Spark делает 'reduceByKey', как это предлагается в ответе ниже, вы не можете узнать, какое значение будет выбрано. Нет никакой гарантии, что Spark поддерживает упорядочение строк. Есть ли что-то в значении (например, факт _1_1), который вы можете использовать для дифференциации? – mattinbits