1

Я разработал Datawarehouse с 3-х измерениях и один факт, и делать, что я читал некоторые книги из Кимбаллом, Боуман, Малиновский ...Рекомендуется включить измерение аудита в проект datawarehouse?

В книге Кимбалл & Казерта имени The Data Warehouse ETL Toolkit, на странице 128 переговоров об измерении аудита. Я понял, что это измерение связано с тем же, что и другие измерения, и используется в основном для оценки качества данных.

Вопрос ... Это измерение аудита фактически используется в корпоративных средах? Крупные компании используют его в своих проектах datawarehouse?

Я делаю свой проект окончательной степени, и я не знаю, должен ли я включать это измерение, потому что я видел его только на книгах, но это кажется хорошим способом для целей качества данных.

Заранее спасибо.

ответ

3

спросил О.П.,

Этот аспект аудита фактически используется в корпоративных средах? Крупные компании используют его в своих проектах datawarehouse?

Короткий ответ: да, иногда

Длинные ответ, размер аудита используется, когда это действительно необходимо. Размеры аудита должны хранить данные метаданных ETL. И некоторые из этих метаданных могут быть непосредственно сохранены на самом деле таблица. Такие данные, как load date, loading batch number, job name, user name и т. Д., Вы можете сразу сохранить в своей таблице фактов.

Но на самом деле, когда вы решите сохранить эту информацию на самом деле, вы скоро поймете, что многие из этих информации на самом деле будут одинаковыми для большого количества записей таблицы фактов.

Например, если вы загружаете 100K записей в вашей таблице фактов в день loading job name, source file name, user who executed the job, batch number и т.д. будут одинаковыми для всех этих 100K записей. Таким образом, имеет смысл, если вы удалите эту информацию из своей таблицы фактов и сохраните ее в отдельной таблице и отправьте surrogate key этой отдельной таблицы вашему факту. Это уменьшает избыточность данных, потребность в пространстве и может повысить скорость загрузки. Нормальные данные нормализация техники, вы знаете.

Конечно, есть информация, которую вы должны указать , а не. Скажем, load date-time записей. Это будет уникально для всех записей в вашем факте - поэтому, очевидно, если вы хотите разместить эту информацию в своем измерении аудита, ваша таблица аудита будет такой же большой, как ваш факт. Вместо этого вы должны поместить такую ​​информацию в свою таблицу фактов.

Я лично видел/работал на некоторых крупнейших в мире хранилищах данных в секторе розничной торговли и телекоммуникаций и стал свидетелем какого-то измерения аудита в этих хранилищах данных.

+0

Спасибо за информацию! – carexcer

1

Да, это полезно, поскольку оно позволяет хранить метаданные процесса о каждой строке. Это может включать в себя:

  • имя задания, вставленную строку,
  • идентификатор выполнения задания,
  • дата и время, когда она была выполнена,
  • имя исходной системы или исходного файла ,
  • Пользователь, выполнивший эту вакансию,
  • количество обработанных строк.

Эта информация неоценима как для регулярного мониторинга, так и для отладки, когда что-то пойдет не так. Подумайте о очень простом примере - когда кто-то загружает неправильный исходный файл по ошибке, как вы можете быстро определить строки, которые следует удалить без измерения аудита?

+0

Хорошо, но знаете ли вы, что он используется в корпоративных средах? И исправьте меня, если я ошибаюсь ... Это будет строка в этом измерении аудита для каждой строки факта? И как можно было контролировать ряды других измерений? Есть ли способ сделать это, или это не нужно? – carexcer

+0

Я не знаю, как часто он используется. Помните, что иногда нет необходимости иметь явное измерение аудита - ваш инструмент ETL может генерировать журналы со всеми необходимыми метаданными процесса./Размер аудита содержит 1 строку для каждого выполнения задания загрузки данных - если он заполняет несколько таблиц фактов и вставляет тысячи строк, каждая из них ссылается на ту же аудиторскую строку, которая описывает это конкретное выполнение./Вы можете использовать измерение аудита для отслеживания изменений как на самом деле, так и на таблицах измерений. –

+0

Спасибо за ответ, я буду считать его – carexcer

Смежные вопросы