Я написал программу Spark Streaming
по pyspark
.Процессы Spark streaming RDD по одному?
Он принимает текстовый поток в реальном времени на socketTextStream
и выполняет некоторые преобразования и сохраняет его как csv
файл saveAsTextFile
. Spark streaming
Операция с окном не используется, и для создания выходных данных не требуется никаких предыдущих данных.
Но, кажется Spark
не начинает обрабатывать в DStream
с RDD
до предыдущей RDD
отделки, даже если предыдущий RDD
использует только несколько разделов и процессор/память.
Это по умолчанию поведение Spark
? Есть ли способ изменить такое поведение?
https://spark.apache.org/docs/1.2.0/monitoring.html#web-interfaces – Ali786