Так что у меня немного проблема с концепциями Dataflow. Особенно в отношении того, как трубопроводы должны быть структурированы.Google Cloud Dataflow потребляет внешний источник
Я пытаюсь использовать внешний API, который предоставляет XML-файл индекса со ссылками на отдельные файлы XML. Как только у меня будет содержимое всех XML-файлов, мне нужно разбить их на отдельные PCollections, чтобы можно было выполнить дополнительные PTransform.
Трудно обернуть голову тем фактом, что первый XML-файл необходимо загрузить и прочитать, прежде чем XML-файл продукта можно будет загрузить и прочитать. Как указано в документации, конвейер начинается с источника и заканчивается с помощью раковины.
Так что мои вопросы:
- Является DataFlow даже правильный инструмент для такого рода задачи?
- Является ли обычным источником, предназначенным для включения всего этого процесса, или он должен выполняться отдельными шагами/конвейерами?
- Можно ли обрабатывать это в конвейере и позволить другому конвейеру читать файлы?
- Как бы выглядел высокоуровневый обзор этого процесса?
Замечания: Я использую SDK Python для этого, но это, вероятно, не имеет особого значения, так как это более архитектурная проблема.
Благодарим за очень четкий ответ! Гораздо проще, чем я думал. – selectle