2014-02-26 6 views
1

Я новичок в DataWarehousing. Мы создали карту данных, схему звездной схемы для загрузки квартальных данных. Мы загружали текущие данные по мере их утверждения в этом квартале.Хранилище данных - Сохранение исторических данных в таблице фактов

Теперь у нас есть требование вернуться и загрузить исторические данные (в течение 3 лет, которые составляют около 40 ГБ). Размеры для загрузки этих данных будут теми же, что и для qurterly load. Однако можем ли мы загрузить эти исторические данные в одну и ту же таблицу фактов или нам нужно создать таблицу повторяющихся фактов для загрузки только исторических данных? Это стандарт DW? Я пытаюсь найти способы сделать это в соответствии со стандартами.

Текущая таблица фактов - это дата, разделенная на load_cycle_date, которая определяет квартал, в который были загружены данные.

Спасибо большое!

+0

DW содержат исторические, агрегированные данные, в чем вас беспокоит? – rano

+0

Привет, RanoMy, если исторические данные (консолидированные в течение 3 лет) могут быть загружены в ту же таблицу фактов, которую мы использовали для загрузки ежеквартальных данных. – user3357452

+0

Предположим, вы только вставляете ежеквартальные данные сейчас в течение следующих трех лет, что изменится? – rano

ответ

0

Я не понимаю, почему получение исторических данных и использование старых load_cycle_dates не помещается в существующую таблицу. Это предполагает, что вы можете преобразовать их в этот формат. Это зависит от того, насколько изменились структуры данных за эти годы.

Существуют и другие области, которые нужно посмотреть в:

  1. Есть ли у вас адекватные исторические значения для всех размеров? Пример: рейтинг клиента. Возможно, есть клиенты, у которых был рейтинг «Плохой», но это было не так. Для каждого изменения должны быть записи. Альтернативой было бы вытащить данные из резервных копий.
  2. Процесс утверждения. Часто до тех пор, пока это не начато, не обнаружено много несоответствий данных. В результате этого, возможно, были внесены изменения в приложение, которое делает эти исправления. Вы можете обнаружить, что некоторые отчеты, запущенные с данными «предыдущего хранилища данных», не будут точными.

Нет причин, по которым вы не сможете сделать это за одну четверть и проверить его. Это единственный способ узнать наверняка. В текущем хранилище данных, с которым я работаю, прошел тот же процесс добавления данных до того, как был запущен склад. Конверсии очень распространены.

Смежные вопросы