У меня есть таблица с Колум xcept (filteredDuplicates)Проблема с dropDuplicates() и, кроме() в Спарк с помощью Scala
Когда я запускаю это в Спарк оболочки, он работает прекрасно, как и ожидалось. Но в иске submit, удаление дубликатов не находится в отсортированном порядке (т.е.) seq_no 3 находится в действительном кадре и 1,5 в отклоненном кадре. Кроме того, кроме() также возникает проблема в источнике submit. Я застрял в этом целый день, пожалуйста, помогите кому-нибудь помочь Спасибо за каждого заранее
Я не думаю, что 'dropDuplicates' предоставляет никаких гарантий, чтобы сохранить запись _first_ для каждой группы дубликатов - по крайней мере, нет такой гарантии в [документы] (https://spark.apache.org/ docs/2.1.0/api/scala/index.html#[email protected]()). Я предполагаю, что он работает только в Spark Shell «случайно» (может быть, есть только один раздел?). Вам нужно будет найти другой подход, например. используя 'groupBy' –
Спасибо за ваш ответ. Теперь у меня есть решение для этого, используя группу. Но все еще точно не знаю, в чем проблема. Будет лучше, если документация будет улучшена. –