2015-09-21 4 views
0

Предположим, у нас есть большой набор данных для анонимных данных. Набор данных состоит из определенного числа переменных и наблюдений. Все, что мы можем узнать о данных, это тип (числовой, символьный, дата и т. Д.) Переменной. Мы можем сделать это, посмотрев данные вручную. Каковы наилучшие этапы подготовки предпродажного набора данных для дальнейшего анализа?Каковы шаги предварительной обработки анонимных данных для интеллектуального анализа?

Только, например, пусть этот набор данных будет всего лишь одной таблицей, поэтому нам не нужно проверять какие-либо отношения между таблицами.

ответ

0

This link дает полный набор валидаций в настоящее время на практике. Тем не менее, чтобы начать с:

  • везде, где это возможно, написали ваши данные таким образом, что вы можете разобрать его так же быстро и легко, как это возможно, используя ваш любимый язык программирования в методах/конструкторы;
  • вы можете проверить правильность соответствия всех типов данных - например, int int не содержат строковых данных и т. Д .;
  • Вы можете проверить, что ваши значения находятся в допустимом диапазоне;
  • проверить, имеет ли поле, не имеющее нулевых значений, нулевые значения;
  • проверить, соответствуют ли даты ожидаемым диапазонам;
  • проверить правильность данных set-membership ограничения везде, где это применимо;
  • , если у вас есть данные, такие как номера телефонов, убедитесь, что они находятся в (XXX) XXX-XXXX дизайне, если вы предпочитаете их таким образом;
  • - это почтовые индексы на правильном уровне точности (в США у вас может быть 5 или 9 цифр точности);
  • если ваши данные являются временными рядами, то они полные (т. Е. У вас есть значения для всех дат)?
  • есть ли какое-либо нежелательное дублирование?

Надеется, что это достаточно хорошо, чтобы вы начали ...

+0

вероятно, мне нужно обновить вопрос, чтобы прояснить. См. Обновление. – angubenko

+0

@angubenko: Я не вижу обновления на ваш вопрос. – displayName

+0

Извините, я набрал его – angubenko

Смежные вопросы