Я кормлю Spark потоком с потоком Kinesis. Мой проект использует партии 1с, во время первых партий (очередь содержит несколько миллионов элементов, а задача начинается с начала потока) искровое потоковое начало, затрачивающее партии 10 тыс. Записей. Это происходит каждые 10/20 секунд.Spark Streaming + Kinesis: начальное потребление записи
т.е.:
t0 -> records : 0 t1 -> records : 0 ..... t10 -> records: 10.000 -> total process time is 0.8s (lower than batch time) t11 -> recods : 0 .. t15 ->records : 0 .. t20 -> records: 10.000
это происходит до тех пор beaviour искры cathces с верхней части потока. После htat каждая партия будет обрабатывать элементы каждую секунду.
Чувствуется, что в начальной точке он должен последовательно обрабатывать несколько записей за пакет, не имея htat большое количество партий, не обрабатывающих записи.
Любая настройка, которую я игнорирую? Ожидается ли описанное поведение?
Вы постоянно регистрируетесь? Непонятно, как именно вы получаете их от своего вопроса. –
@YuvalItzchakov Я установил 1с партии, прикрепленные изображения должны ответить на ваш вопрос (?) Есть один приемник кинезита –
Ваши изображения не отвечают на мой вопрос. Вы говорите * Похоже, что в начальной точке он должен последовательно обрабатывать несколько записей за пакет, не имея htat большое количество партий, не обрабатывающих записи. * Но это не работает с Spark Streaming. Если вы отправляете пакет из 10000 сообщений одновременно, и он видит их, и он не имеет * предела набора *, он будет использовать их полностью. –