2015-12-10 2 views
0

У меня есть несколько файлов, которые выгружают таблицу из 3NF-модели, загруженной в Google Cloud Storage. Каковы рекомендуемые шаги для присоединения/сглаживания в один файл для будущего использования с BigQuery?Как сгладить несколько файлов GCS (выгрузка таблиц 3NF) в один файл GCS с использованием GC Dataflow?

Можете ли вы указать мне лучший пример (ы), который соответствует моему прецеденту?

Могу ли я сначала загрузить отдельные файлы в BigQuery?

ответ

1

Dataflow использует источники для преобразования файлов в коллекции записей. В настоящее время нет встроенного источника для файлов 3NF.

Вы можете создать свой собственный Custom Source, чтобы обрабатывать ваши файлы.

Поскольку ваши данные находятся в файлах, вы можете использовать FileBasedSource в качестве базового класса для вашего источника.

После того, как вы написали свой источник, вы можете построить трубопровод, который обрабатывает запись, а затем записывает их в BigQuery используя BigQuery Sink

+0

Я думал, что это может быть общим шаблоном для экспорта данных из реляционной БД в GCS и преобразование через поток данных в плоский формат для BigQuery. Вы видели другой способ или можете подумать о лучшем пути? – successhawk

+0

Какую часть решения вы хотели бы улучшить? Если вы предоставите более подробную информацию о том, что вы пытаетесь сделать, мы сможем сделать конкретные рекомендации. Например, при чтении из базы данных общий вопрос заключается в том, следует ли читать всю базу данных и обрабатывать/фильтровать каждую запись по мере необходимости или выборочно импортировать подмножество данных, например. запустив запрос, чтобы выбрать только те записи, которые вам интересны. Решение будет зависеть от вашей проблемы. –

Смежные вопросы