2015-06-09 4 views
0

Предположим, у меня есть RDD Integer от 1 до 1 000 000 000, и я хочу напечатать их, заказанные с использованием foreachPartition. Может быть ситуация, что раздел 5-6-7-8 будет напечатан до 1-2-3-4. Как я могу это предотвратить?Scala - сортировать разделы RDD

Спасибо, Майя

ответ

1

Я думаю, что единственный способ сделать это было бы обеспечить есть только один раздел, а затем вы можете распечатать данные. Вы можете вызвать перераспределение (1) или объединить (1) на вашем RDD, чтобы уменьшить количество разделов. Для вашего случая использования я думаю, что coalesce лучше, поскольку он избегает тасования.

https://spark.apache.org/docs/1.3.1/programming-guide.html#transformations

Смежные вопросы