Использование искры на мезо с кафкой и кассандрой (таким образом, искро-кассандра-коннектор) С искровым потоком Я слушаю тему кафки, а затем вставляю ее в кассандру. saveToCassandraКак управлять количеством задач Spark при записи в Cassandra
У меня есть 60 cpus, выделенных для искры (30 искровых узлов и 5 узлов casssandra), и я стараюсь следовать рекомендациям по исправлению апача «В общем, мы рекомендуем 2-3 задания на ядро процессора в вашем кластере». То есть 120-180 задач.
Однако, похоже, что этап вставки имеет ряд задач в зависимости от принятых входных данных.
Пример (моя потоковый партия длится 1 минуту):
900 per minute -> inserting stage has 12 tasks
50 000 per minute -> inserting stage has 380 tasks
Как я могу получить:
x per minute -> inserting stage has 180 tasks