Я использую spark 1.5.2
. Мне нужно запустить искрообразование с кафкой в качестве источника потоковой передачи. Мне нужно читать из нескольких тем в кафке и обрабатывать каждую тему по-разному.Spark: параллельно обрабатывается несколько вопросов о kafka
- Это хорошая идея сделать это на той же работе? Если да, должен ли я создать один поток с несколькими разделами или разными потоками для каждой темы?
- Я использую kafka прямое пар. Насколько я знаю, искра запускает длинные приемники для каждого раздела. У меня относительно небольшой кластер, 6 узлов с 4 ядрами каждый. Если у меня будет много тем и разделов в каждой теме, повлияет ли эффективность, так как большинство исполнителей заняты длинными приемниками? Пожалуйста, исправьте меня, если мое понимание не так
@CodyKoeninger, на какой уровень мы должны идти вниз, пока мы не знаем, все элементы внутри контейнеров из одной и той же темы? I.e., внутри RDD, я гарантированно, чтобы все записи были из одной темы? или это на уровне раздела? В этом случае существует ли API высокого уровня, который его раскрывает? – Stephane
@Stephane До тех пор, пока вы не сделаете преобразование, разделение RDD прямого потока будет 1: 1 с тематическими разделами kafka. см. https://github.com/koeninger/kafka-exactly-once –
@ prasad-khode - где я могу найти релевантность для этого «Если мы создадим один поток с несколькими темами, темы читаются один за другим», похоже, что это не задокументированная часть искрового потока кафки. – ASe