Искры для асинхронных обновлений.

Красный в книге, искрящийся в действии:Искры для асинхронных обновлений.

«Спарк не подходит, однако, для асинхронных обновлений общих данных (например, для обработки онлайн-транзакций, например), поскольку он был создан с пакетом аналитика. (Spark streaming - это просто пакетная аналитика, применяемая к данным во временном окне.) Инструменты, специализированные для этих случаев использования, по-прежнему будут необходимы ».

Может ли кто-нибудь объяснить это под этим?

Меня интересует использование искры для выполнения некоторого процесса ETL. В качестве побочной заметки я намерен использовать кафку посередине. Хотя я не понимаю эту проблему. Потому что получение данных из Kafka и запись их в базу данных было бы одной и той же проблемой. Это будет сделано в parrallel.

источник

2016-11-15 MaatDeamon

Spark streaming работает небольшими партиями - то есть каждый X-период, искра считывает все доступные данные с момента последнего считывания из источника потоковой передачи. Он обрабатывает все эти данные вместе.

Эта пакетная работа означает, что обновление нисходящих систем имеет встроенную задержку (время X) в отличие от других инструментов (например, Flink, Apex), которые работают по записи. Обратите внимание, однако, что когда дело доходит до обновления адресов OLTP, если вы можете жить с задержкой, вы можете получить лучшую пропускную способность, поскольку пакетные обновления обычно более эффективны.

источник

2016-11-16 03:46:23

Искры для асинхронных обновлений.

ответ

Смежные вопросы