2016-11-28 3 views
0

Я кормлю Spark потоком с потоком Kinesis. Мой проект использует партии 1с, во время первых партий (очередь содержит несколько миллионов элементов, а задача начинается с начала потока) искровое потоковое начало, затрачивающее партии 10 тыс. Записей. Это происходит каждые 10/20 секунд.Spark Streaming + Kinesis: начальное потребление записи

т.е.:

t0 -> records : 0 t1 -> records : 0 ..... t10 -> records: 10.000 -> total process time is 0.8s (lower than batch time) t11 -> recods : 0 .. t15 ->records : 0 .. t20 -> records: 10.000

это происходит до тех пор beaviour искры cathces с верхней части потока. После htat каждая партия будет обрабатывать элементы каждую секунду.

Чувствуется, что в начальной точке он должен последовательно обрабатывать несколько записей за пакет, не имея htat большое количество партий, не обрабатывающих записи.

Любая настройка, которую я игнорирую? Ожидается ли описанное поведение?

enter image description here

enter image description here

+0

Вы постоянно регистрируетесь? Непонятно, как именно вы получаете их от своего вопроса. –

+0

@YuvalItzchakov Я установил 1с партии, прикрепленные изображения должны ответить на ваш вопрос (?) Есть один приемник кинезита –

+0

Ваши изображения не отвечают на мой вопрос. Вы говорите * Похоже, что в начальной точке он должен последовательно обрабатывать несколько записей за пакет, не имея htat большое количество партий, не обрабатывающих записи. * Но это не работает с Spark Streaming. Если вы отправляете пакет из 10000 сообщений одновременно, и он видит их, и он не имеет * предела набора *, он будет использовать их полностью. –

ответ

Смежные вопросы