Процессы Spark streaming RDD по одному?

Я написал программу Spark Streaming по pyspark.Процессы Spark streaming RDD по одному?

Он принимает текстовый поток в реальном времени на socketTextStream и выполняет некоторые преобразования и сохраняет его как csv файл saveAsTextFile. Spark streaming Операция с окном не используется, и для создания выходных данных не требуется никаких предыдущих данных.

Но, кажется Spark не начинает обрабатывать в DStream с RDD до предыдущей RDD отделки, даже если предыдущий RDD использует только несколько разделов и процессор/память.

Это по умолчанию поведение Spark? Есть ли способ изменить такое поведение?

источник

2015-04-29 takaomag

https://spark.apache.org/docs/1.2.0/monitoring.html#web-interfaces – Ali786

Можете ли вы высказать свой код и проблему, с которой вы столкнулись?

Понятно, что данные в течение каждого интервала времени образуют rdd в конце интервала (это идея формирования мини-пакетной абстракции данных).

источник

2015-04-29 04:56:35

Пожалуйста, разместите эти запросы для пояснений в качестве комментариев. – maasg

Процессы Spark streaming RDD по одному?

ответ

Смежные вопросы