2016-01-26 2 views
0

Другой общий вопрос по науке о данных! Предположим, у меня есть куча образцов, и мне приходится обнаруживать выбросы на каждом образце. Мои данные будут одномерными, поэтому я могу использовать простые методы, такие как стандартное отклонение или медианное абсолютное отклонение.Какая проверка для обнаружения выбросов?

Теперь мой вопрос: как бы сделать какую-либо проверку, чтобы увидеть, являются ли результаты согласованными, особенно если смотреть на них глазами не будет выбором из-за размера данных? Например, чтобы выбрать, сколько стандартных отклонений использовать для определения выбросов. До сих пор я не видел количественного метода. Это даже существует?

Приветствия

+0

, что зависит от контекста. На это нельзя ответить в целом. – cel

+0

как это зависит от контекста? Любые примеры? – Luks

ответ

1

Интересно вы не определили размерность «размер данных». Я думаю, что здесь важно. Например, вы можете нарисовать график q-q для высокоразмерных данных, но не так просто для многих точек данных.

Однако при поиске общей методологии я бы напал на эту проблему с вероятностной точки зрения. Это никогда не скажет вам, какая точка данных является выбросом, однако она скажет вам, какая вероятность того, что у вас есть выброс (в определенных областях ваших данных). Я должен сделать два предположения: (а) вы знаете семейство распространения, из которого ваши данные вытекают, например, normal или poisson (b), вы можете оценить параметры этого семейства, учитывая набор данных.

Теперь вы можете определить гипотезу о том, что данные из этого Распространения и альтернативная гипотеза (H0) о том, что данные не из этого распределения. Если вы нарисуете случайную выборку из вашего предполагаемого распределения, это распределенное распределение должно быть в среднем вероятнее всего из распределения в качестве наблюдаемого образца. Если это не так, то

Однако, вероятно, более интересно найти подпространство, в котором находится выброс. Это можно сделать с помощью следующей эмпирической процедуры. Если вы сейчас оцениваете параметры своего дистрибутива, данные по данным. Вы можете сравнить предполагаемое распределение с гистограммой видимых данных. Это дает вам для каждого бункера гистограммы вероятность того, что ic содержит выброс. Для высокоразмерных данных это можно проверить программно.

+0

Хорошо, так что это обобщение исключения всего за пределы стандартного отклонения X от нормального распределения, если я правильно понимаю. И чтобы ответить вам, я должен применить это к данным, которые различаются по размеру: от 10 до 10 000 записей для каждой независимой серии. – Luks

+0

И спасибо за ответы на мои вопросы CAFEBABE :) Вы очень помогли – Luks

+0

@Luks: да, это как раз идея шести сигм. На самом деле его можно обобщить на мультимодальные распределения. Однако, это может стать очень сложным. – CAFEBABE

Смежные вопросы