У меня есть приложение для потоковой передачи, которое потребляет сообщения кафки. И я хочу обработать все сообщения, приходящие последние 10 минут вместе. Похоже, есть два подхода, чтобы сделать работу:Spark streaming: пакетный интервал против окна
val ssc = new StreamingContext(new SparkConf(), Minutes(10))
val dstream = ....
и
val ssc = new StreamingContext(new SparkConf(), Seconds(1))
val dstream = ....
dstream.window(Minutes(10), Minutes(10))
, и я просто хочу, чтобы выяснить, есть ли разница в производительности между ними
Вы можете сделать быстрый тест и узнать! Но, поскольку «val ssc = новый StreamingContext (новый SparkConf(), Minutes (10))« доза обработки один раз в 10 минут, это будет лучше всего с точки зрения обработки. Версия окна создаст задание, чтобы получать последнюю информацию от kafka каждые 1 сек и суммировать каждые 10 минут !!! – rakesh