Возможно, мне нужно будет работать с Kafka, и я абсолютно не знаком с этим. Я понимаю, что есть производитель Кафки, который получит журналы в разделе «Кафка».Spark Streaming от Kafka Consumer
Мне нужно будет поработать над чтением из тем Кафки через потребителя. Нужно ли сначала настраивать API-интерфейс, затем я могу использовать поток SparkStreaming Context (PySpark), или я могу напрямую использовать модуль KafkaUtils для чтения из тем кафки?
В случае, если мне нужно настроить потребительское приложение Kafka, как мне это сделать? Пожалуйста, вы можете поделиться ссылками с правыми документами.
Спасибо заранее!
Это говорит в таких местах, что он не поддерживает Python. Вы пытались читать потоки из Kafka, пожалуйста, можете ли вы поделиться фрагментом кода, который отнимает у него даже небольшие кусочки журналов? –
О, да, он не будет поддерживать в pyspark, поэтому для этого вы можете создать свой собственный поток http://spark.apache.org/docs/latest/streaming-custom-receivers.html –