3

Возможно, мне нужно будет работать с Kafka, и я абсолютно не знаком с этим. Я понимаю, что есть производитель Кафки, который получит журналы в разделе «Кафка».Spark Streaming от Kafka Consumer

Мне нужно будет поработать над чтением из тем Кафки через потребителя. Нужно ли сначала настраивать API-интерфейс, затем я могу использовать поток SparkStreaming Context (PySpark), или я могу напрямую использовать модуль KafkaUtils для чтения из тем кафки?

В случае, если мне нужно настроить потребительское приложение Kafka, как мне это сделать? Пожалуйста, вы можете поделиться ссылками с правыми документами.

Спасибо заранее!

ответ

2

Spark обеспечивает внутренний поток кафки, в котором вам не нужно создавать пользовательский потребитель, есть 2 подхода к подключению с kafka 1 с приемником 2. прямой подход. Для получения более подробной информации пройдите по этой ссылке http://spark.apache.org/docs/latest/streaming-kafka-integration.html

+0

Это говорит в таких местах, что он не поддерживает Python. Вы пытались читать потоки из Kafka, пожалуйста, можете ли вы поделиться фрагментом кода, который отнимает у него даже небольшие кусочки журналов? –

+0

О, да, он не будет поддерживать в pyspark, поэтому для этого вы можете создать свой собственный поток http://spark.apache.org/docs/latest/streaming-custom-receivers.html –

1

Нет необходимости настраивать потребительское приложение kafka, сама искры создает потребителя с двумя подходами. Один из них - подход, основанный на методе Reciever, который использует класс KafkaUtils, а другой - прямой подход, который использует метод CreateDirectStream. Как бы то ни было, в любом случае сбой ионной струйной струйки, нет потери данных, она начинается со смещения данных, где вы ушли.

Для получения более подробной информации по этой ссылке: http://spark.apache.org/docs/latest/streaming-kafka-integration.html

Смежные вопросы