2016-12-04 4 views
-4

Проблема: У одной компании есть очевидные ошибки в данных, найти ее и исключить из дальнейшего анализа.Найти ошибки в данных с помощью R

Данные являются факторами.

Может ли кто-нибудь помочь мне с любым простым способом найти ошибки в данных? номера компаний находятся в колонке «custnr». Итак, из этой колонки мы найдем ошибки в данных. Некоторые советы?

zon  age custnr agree  dur claim skadkost claimfreq 
1 1  0  15  2 1.585216  0  0 0.0000000 
2 1  0 145  47 12.062971  377 294556 31.2526668 
3 1  0 184  6 3.321013  4 22152 1.2044518 
4 1  0 226  9 5.336071  5  882 0.9370190 
5 1  0 231  6 4.865161  1 67395 0.2055431 
6 1  0 385  4 5.998631  1  8869 0.1667047 
+1

Что вы имеете в виду ошибки? Значения NA? Отрицательные значения? –

+0

Я не знаю, набор данных довольно велик, и они только сказали, что находят «очевидные» ошибки. Который для меня не «Явный». Но это относится и к обоим, я бы сказал. Я не хочу никаких отрицательных значений или значений NA. @ KiprasKančys – laea93

+0

Вы можете попробовать сделать ящик каждого столбца, чтобы увидеть, есть ли какие-либо очевидные выбросы. –

ответ

0

Для удаления NA значений.

dataNoNa <- data[!is.na(data$custnr), ] 

Удалить отрицательные значения.

dataClean <- dataNoNa[dataNoNa$custnr > 0, ] 
Смежные вопросы