2015-06-04 2 views
2

Мы использовали Dataflow в пакетном режиме некоторое время. Однако мы не можем найти много информации о его потоковом режиме.Поток потокового потока - подходит ли он нашему прецеденту?

У нас есть следующий случай использования:

  • данных/событий в настоящее время в потоковом режиме реального времени в BigQuery
  • Нам нужно преобразовать/чистый/денормализовать данные перед анализом с помощью бизнес-

Теперь мы могли бы, конечно, использовать Dataflow в пакетном режиме и получать пачки данных из BigQuery (на основе временных меток) и преобразовывать/очищать/денормализовать его таким образом.

Но это немного беспорядочный подход, особенно потому, что данные транслируются в реальном времени, и, вероятно, он получит реальную громоздкую разработку, с какими данными нужно работать. Звучит хрупким тоже.

Было бы здорово, если бы мы могли просто преобразовать/очистить/денормализовать в Dataflow, а затем записать в BigQuery , поскольку он работает в.

Для этого предназначена потоковая передача данных? Если да, то какой источник данных может считывать поток данных в потоковом режиме?

ответ

3

Да, это очень разумный вариант использования для потокового режима. В настоящее время мы поддерживаем чтение с Cloud Pub/Sub через источник PubsubIO. В работе используются дополнительные источники. Выход можно записать в BigQuery через раковину BigQueryIO. охватывает различие между ограниченным и неограниченным источниками/приемниками, а также доступные в настоящее время конкретные реализации.

Что касается любого очевидного отсутствия документации для потоковой передачи, то большая часть унифицированной модели применима в пакетной и потоковой передаче, поэтому нет раздела, специфичного для потоковой передачи. Тем не менее, я бы рекомендовал просмотреть разделы и Triggers документов PCollection, поскольку они особенно применимы при работе с неограниченными PCollection.

+0

Итак, это будет примерно так: ping endpoint with event -> pub/sub -> Dataflow (в потоковом режиме) -> BigQuery. Звучит правдиво ?! –

+0

Да, это звучит правильно. –

Смежные вопросы