2016-07-05 4 views
0

Недавно я слышал много нового, что заменить поврежденные значения на 999999 или аналогичные значения, которые не соответствуют нормальному диапазону значений базового поля данных, является хорошей практикой.Превосходная информация об ошибках

Мне кажется, что это полное безумие и обязательно приводит к ошибке для начинающих пользователей, когда они позже подключаются к своим таблицам или другим анализаторам в хранилище данных.

На самом деле я не вижу никакого обоснования для этого метода.

Как вы оцениваете это?

+0

Если данных не так много, это не имеет существенного значения, вы находитесь в плотном графике, и никто не активно ищет данные в бизнесе, это на самом деле хорошая идея. Хотя я, конечно же, никогда не заменял данные с таким количеством чисел - всегда то, что явно указывает, что оно неверно, т. Е. Член «неизвестного» dimesnion. –

ответ

1

К сожалению, некоторые из проектов используют очень высокое значение, которое поддерживается системой, и что-то невозможное через обычный канал (бизнес) для ввода в случае испорченной записи (плохое качество данных) или сиротской записи (записи без вспомогательных атрибутов).

Но мы всегда отфильтровываем эти записи на уровне презентации, чтобы избежать путаницы с конечными пользователями.

Альтернативно, вы можете использовать отрицательные числа вместо очень высоких чисел. Но логика должна быть такой же, когда нам нужно отфильтровать эти записи на уровне презентации. Таким образом, мы можем ретроспективно корректировать эти записи в будущем, и их легко идентифицировать с помощью фильтра.

2

Когда дело доходит до мер, которые будут использоваться в агрегации и вычислениях, я бы определенно не рекомендовал заменять их значения более высоким или вне диапазона значений, заменяя значения с помощью NULL, более уместно в этом случае, поскольку оно не будет повреждено результаты.

Когда дело доходит до размеров и текстовых описаний, наилучшим подходом было бы иметь строку в вашей таблице измерений, чтобы описать значение «неизвестное» или «na», а также присоединиться к идентификатору с таблицей фактов.

+0

Я полностью согласен с вами; это то, что я делаю, и я хотел бы, чтобы кто-либо с знаниями ОК SQL мог делать все, что захочет, с данными впоследствии. – Breathe

+0

Проблема с NULL в числовых полях заключается в том, что инструмент аналитики или отчетности - или конечный пользователь - может интерпретировать его как ноль. Это может привести к неправильным агрегатам; рассмотрим, например, импликацию для любых средних значений. Очевидно, что некорректные цифры, о которых идет речь, ни в коем случае не являются полным решением, но на самом деле они могут быть менее рискованными, чем оставлять NULL в числовом поле. –

Смежные вопросы