1

Я пытаюсь запустить структуру SQL Spark с помощью Kafka. Я ищу этот обязательный параметр subscribePattern [строка регулярного выражения Java] для опции kafka. по-видимому, только три значения: «назначить„подписаться“или„subscribePattern“Spark SQL: структура потоковой передачи с опцией подписчика Kafka

Когда я гугле об этом варианте, наиболее полезная информация пришла заключается в следующем: https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-streaming/spark-streaming-kafka-ConsumerStrategy.html

Можно ли поставить в непростой вопрос для меня о наиболее четкой разнице между тремя вариантами? и каково другое поведение, которое отразится на Spark SQL

ответ

1

Я не знаком с Spark, однако для потребителя Kafka существует три варианта:

  1. Назначить: назначить разделы темы вручную (т. Е. Вы можете выполнить любое задание разделов). Это отключает управление группами потребителей, таким образом, если у вас есть несколько потребителей и вы хотите сбалансировать нагрузку, чтобы самостоятельно заботиться о том, чтобы не назначать разделы дважды.
  2. подписаться: укажите набор тем, из которых вы хотите прочитать. Управление группами потребителей будет выполнять фактическое назначение разделов (т. Е. Если у вас есть несколько потребителей в группе, разделы будут распределены по всем потребителям в группе)
  3. pattern: аналогично (2), однако вы указываете regex и подписаться на все темы, которые соответствуют регулярному выражению
Смежные вопросы