Прямой потребитель Kafka начал ограничивать чтение до 450 событий (5 * 90 разделов) за партию (5 секунд), он работал нормально в течение 1 или 2 дней до этого (около 5000 до 40000 событий на каждую партию)Spark Streaming Kafka прямой потребительский расходная нагрузка
Я использую искровой автономный кластер (искра и искрообразование-кафка версии 1.6.1), работающий в AWS и использующий ведро S3 для каталога контрольных точек StreamingContext.getOrCreate(config.sparkConfig.checkpointDir, createStreamingContext)
, нет задержек в планировании и достаточного количества дисков пространства на каждом рабочем узле.
Не изменять параметры инициализации клиента Кафки, почти уверен, что структура Кафки не изменилась:
val kafkaParams = Map("metadata.broker.list" -> kafkaConfig.broker)
val topics = Set(kafkaConfig.topic)
val stream = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](
ssc, kafkaParams, topics)
Также не может понять, почему, когда прямое описание потребителя говорит The consumed offsets are by the stream itself
мне все еще нужно использовать контрольно-пропускной пункт каталог при создании потокового контекста?
Установлен ли 'spark.streaming.backpressure.enabled' значение' true'? –
да, я попытаюсь отключить его –
похоже, что он помог –