В Google Bigquery (или аналогичной базе данных), каков соответствующий баланс между денормализацией данных и не повторяющимися данными?Обозначение bigquery
К примеру, у нас есть table_1
с колоннами
- Дата
- значение А
- значение B
И еще table_2
с колоннами
- дата
- значение B
- значение C
table_1
составляет около 10 000x больше table_2
, и так сделать таблицу со всеми тремя колонками будет дублировать много данных. И table_2
используется в некоторых других обстоятельствах, поэтому может иметь смысл держать отдельные
Спасибо за любой проницательности
Какой самый лучший способ думать об этом?
Вы потратили на них разумное сравнение? Помните, что в настоящее время $ 20 составляет 1 Тбайт данных на BigQuery. Я чувствую, что хранение сегодня настолько дешево, что мы не думаем об этом, просто мы повторно используем данные столько раз, сколько нам нужно. – Pentium10
Это проблема управления данными, которая связана с издержками. Вы совершенно правы, что хранилище сейчас так дешево. Моя забота заключается в том, что массированное умножение данных будет трудно справиться с POV загрузки и обслуживания. – Maximilian