2016-11-15 3 views
1

Красный в книге, искрящийся в действии:Искры для асинхронных обновлений.

«Спарк не подходит, однако, для асинхронных обновлений общих данных (например, для обработки онлайн-транзакций, например), поскольку он был создан с пакетом аналитика. (Spark streaming - это просто пакетная аналитика, применяемая к данным во временном окне.) Инструменты, специализированные для этих случаев использования, по-прежнему будут необходимы ».

Может ли кто-нибудь объяснить это под этим?

Меня интересует использование искры для выполнения некоторого процесса ETL. В качестве побочной заметки я намерен использовать кафку посередине. Хотя я не понимаю эту проблему. Потому что получение данных из Kafka и запись их в базу данных было бы одной и той же проблемой. Это будет сделано в parrallel.

ответ

2

Spark streaming работает небольшими партиями - то есть каждый X-период, искра считывает все доступные данные с момента последнего считывания из источника потоковой передачи. Он обрабатывает все эти данные вместе.

Эта пакетная работа означает, что обновление нисходящих систем имеет встроенную задержку (время X) в отличие от других инструментов (например, Flink, Apex), которые работают по записи. Обратите внимание, однако, что когда дело доходит до обновления адресов OLTP, если вы можете жить с задержкой, вы можете получить лучшую пропускную способность, поскольку пакетные обновления обычно более эффективны.

Смежные вопросы