Я читаю через этот блог:Apache Кафка и Спарк Streaming
Он обсуждает об использовании искровой Streaming и Apache Кафку сделать некоторые вблизи обработки в реальном времени. Я полностью понимаю статью. Он показывает, как я могу использовать Spark Streaming для чтения сообщений из темы. Я хотел бы знать, есть ли Spark Streaming API, который я могу использовать для написания сообщений в теме Kakfa?
My use case довольно простой. У меня есть набор данных, которые я могу читать из данного источника с постоянным интервалом (скажем, каждую секунду). Я делаю это с использованием реактивных потоков. Я хотел бы сделать некоторые аналитики по этим данным, используя Spark. Я хочу иметь вину-терпимость, поэтому Кафка вступает в игру. Так что я бы по существу сделать следующее (поправьте меня, если я ошибаюсь):
- Использование реактивных потоков получает данные из внешнего источника через постоянные интервалы
- Pipe результат в Кафки тему
- Использование Спарк Streaming, создать контекст передачи для потребителя
- Выполнить аналитику на потребляемые данных
Один другой вопрос, хотя, является API Streaming в Спарк реализацией спецификация реактивных потоков? Имеет ли обратная обработка под давлением (Spark Streaming v1.5)?
У меня есть вопрос о противодавлении функции вам как Implementor: Я позволяя противодавление, но не влияют на систему. Я обрабатываю довольно большие элементы данных с пропускной способностью около 40 единиц в секунду из моего источника. Я исправил уже maxRate, так как в противном случае время задержки продолжает расти и никогда не останавливаться. Противодавление, похоже, работало с обработкой твитов, где скорость передачи данных составляет около 15000 твитов/с ... – chAlexey