У меня есть PCollection совпадающих имен файлов GCS, каждый из которых содержит один сжатый JSON blob. Каков наилучший способ прочитать весь файл, распаковать его (формат Gzip) и JSON декодировать его?Лучший способ обработки файла GCS в потоке данных?
- TextIO действительно близко, но считывает данные в строке.
- GCS API предлагает пример для how to read the entire file, но он не обрабатывает декомпрессию и заставляет меня переопределить множество функциональных возможностей ядра.
Есть ли существующие API и/или примеры, которые могут дать мне начало? Похоже, это будет довольно распространенный случай использования.
Позвольте мне убедиться, что я понимаю вопрос - в идеале вам бы хотелось что-то вроде: JsonIO.Read.from (myFileName) .withCompressionType (JsonIO.CompressionType.GZIP) - это правильно? –
Да, и файл является объектом GCS (gs: //bucket/file.json.gz). – igrigorik