В моем конвейере потока данных у меня будет два PCollections<TableRow>
, которые были прочитаны из таблиц BigQuery. Я планирую объединить эти два ПК в один PCollection
с flatten
.Фильтрация ограниченных данных в потоке данных на основе временной отметки
Поскольку BigQuery добавляется только, цель состоит в том, чтобы написать усечение второй таблицы в BigQuery с помощью нового PCollection
.
Я прочитал документацию, и это средние шаги, которые я смутил. С моим новым PCollection
планируется использовать Comparator DoFn
, чтобы посмотреть последнюю дату обновления и вернуть заданную строку. Я не уверен, должен ли я использовать преобразование фильтра или если я должен делать группу по ключу, а затем использовать фильтр?
Все PCollection<TableRow>
s будет содержать те же значения: IE: string, integer и timestamp. Когда речь идет о парах значений ключей, большая часть документации по облачному потоку данных включает в себя только простые строки. Возможно ли иметь пару значений ключа, которая представляет собой всю строку PCollection<TableRow>
?
Ряды будет выглядеть так:
customerID, customerName, lastUpdateDate
0001, customerOne, 2016-06-01 00:00:00
0001, customerOne, 2016-06-11 00:00:00
В приведенном выше примере, я хотел бы, чтобы отфильтровать PCollection только вернуть вторую строку в PCollection, которые будут записаны в BigQuery. Кроме того, можно ли применить эти Pardo
на третьем PCollection без создания четвертого?