4

У меня есть несколько основных вопросов, связанных с Спарк StreamingСпарк + Кафка интеграция - отображение разделов Кафки к разделам RDD

[Пожалуйста, дайте мне знать, если эти вопросы были даны ответы на другие посты - я не мог найти any]:

(i) В Spark Streaming указано количество разделов в RDD по умолчанию, равное числу рабочих?

(ii) В Direct Approach для интеграции Spark-Kafka количество созданных разделов RDD равно количеству разделов Kafka. Можно ли предположить, что каждый раздел RDD i будет сопоставлен с одним рабочим узлом j в каждой партии DStream? т.е. отображение разбиения на рабочий узел, основанный исключительно на индексе раздела? Например, может ли раздел 2 быть назначен работнику 1 в одной партии и работнике 3 в другой?

Заранее спасибо

ответ

4

я) по умолчанию параллелизм количество ядер (или 8 для Mesos), но количество разделов до реализации входного потока

II) нет, отображение раздела индексы для рабочих узлов не являются детерминированными. Если вы используете kafka на тех же узлах, что и ваши исполнители искры, предпочтительное место для запуска задачи будет на узле лидера кафки для этого раздела. Но даже тогда задача может быть запланирована на другом узле.