1

Использование искры на мезо с кафкой и кассандрой (таким образом, искро-кассандра-коннектор) С искровым потоком Я слушаю тему кафки, а затем вставляю ее в кассандру. saveToCassandraКак управлять количеством задач Spark при записи в Cassandra

У меня есть 60 cpus, выделенных для искры (30 искровых узлов и 5 узлов casssandra), и я стараюсь следовать рекомендациям по исправлению апача «В общем, мы рекомендуем 2-3 задания на ядро ​​процессора в вашем кластере». То есть 120-180 задач.

Однако, похоже, что этап вставки имеет ряд задач в зависимости от принятых входных данных.

Пример (моя потоковый партия длится 1 минуту):

900 per minute -> inserting stage has 12 tasks 
50 000 per minute -> inserting stage has 380 tasks 

Как я могу получить:

x per minute -> inserting stage has 180 tasks 

ответ

0

вы можете позвонить переделу перед тем, чтобы сохранить данные в Кассандре, так что вы можете изменить параллелизм к вашему «Магическому числу задач», также вы можете установить параллелизм по умолчанию как параметр conf искры

Смежные вопросы