У меня есть несколько основных вопросов, связанных с Спарк StreamingСпарк + Кафка интеграция - отображение разделов Кафки к разделам RDD
[Пожалуйста, дайте мне знать, если эти вопросы были даны ответы на другие посты - я не мог найти any]:
(i) В Spark Streaming указано количество разделов в RDD по умолчанию, равное числу рабочих?
(ii) В Direct Approach для интеграции Spark-Kafka количество созданных разделов RDD равно количеству разделов Kafka. Можно ли предположить, что каждый раздел RDD i
будет сопоставлен с одним рабочим узлом j
в каждой партии DStream
? т.е. отображение разбиения на рабочий узел, основанный исключительно на индексе раздела? Например, может ли раздел 2 быть назначен работнику 1 в одной партии и работнике 3 в другой?
Заранее спасибо