2015-07-28 2 views
2

Я пытаюсь разбить свои данные для отправки на несколько компьютеров для одновременного запуска PySpark, но затем некоторые из данных, которые я хочу отправить на один компьютер, я также хочу отправить другим пользователям машина. Как я разделяю данные с перекрытиями?PySpark Разбиение с перекрытием

ответ

0

rdd.randomSplit ([1] * N) возвращает список N равных размеров rdd, я думаю, вы можете реплицировать элементы своего списка перед отправкой их

Смежные вопросы