После делать много чтения и построения ДОУ мы все еще не уверены, является ли Бури Trident или Спарк Streaming может обрабатывать наш случай использования:Сторм Trident и Спарк Streaming: распределенная партия блокировки
- У нас есть входящий поток данных датчиков для миллионов устройств (которые имеют уникальные идентификаторы).
- Нам необходимо выполнить агрегацию этого потока на уровне каждого устройства. Агрегация будет считывать данные, которые уже были обработаны (и сохранены) в предыдущих партиях.
- Ключевой момент. Когда мы обрабатываем данные для определенного устройства, нам необходимо убедиться, что никакие другие процессы не обрабатывают данные для этого конкретного устройства. Это связано с тем, что результат нашей обработки повлияет на последующую обработку для этого устройства. Эффективно нам нужен распределенный замок.
- Кроме того, данные устройства событий должны обрабатываться в порядке, в котором произошли события.
По существу, у нас не может быть двух партий для обработки одного и того же устройства одновременно.
Может ли трезубец/искрообразование ручкой в использовании?
Любые советы, оцененные.
@ Matthias J. Sax: Вы получили ответ самостоятельно? Если да, то какой из них вы выбрали Trident или Spark Streaming и почему? –
Я не задавал вопрос ... –