Мы использовали Dataflow в пакетном режиме некоторое время. Однако мы не можем найти много информации о его потоковом режиме.Поток потокового потока - подходит ли он нашему прецеденту?
У нас есть следующий случай использования:
- данных/событий в настоящее время в потоковом режиме реального времени в BigQuery
- Нам нужно преобразовать/чистый/денормализовать данные перед анализом с помощью бизнес-
Теперь мы могли бы, конечно, использовать Dataflow в пакетном режиме и получать пачки данных из BigQuery (на основе временных меток) и преобразовывать/очищать/денормализовать его таким образом.
Но это немного беспорядочный подход, особенно потому, что данные транслируются в реальном времени, и, вероятно, он получит реальную громоздкую разработку, с какими данными нужно работать. Звучит хрупким тоже.
Было бы здорово, если бы мы могли просто преобразовать/очистить/денормализовать в Dataflow, а затем записать в BigQuery , поскольку он работает в.
Для этого предназначена потоковая передача данных? Если да, то какой источник данных может считывать поток данных в потоковом режиме?
Итак, это будет примерно так: ping endpoint with event -> pub/sub -> Dataflow (в потоковом режиме) -> BigQuery. Звучит правдиво ?! –
Да, это звучит правильно. –