Интересно вы не определили размерность «размер данных». Я думаю, что здесь важно. Например, вы можете нарисовать график q-q для высокоразмерных данных, но не так просто для многих точек данных.
Однако при поиске общей методологии я бы напал на эту проблему с вероятностной точки зрения. Это никогда не скажет вам, какая точка данных является выбросом, однако она скажет вам, какая вероятность того, что у вас есть выброс (в определенных областях ваших данных). Я должен сделать два предположения: (а) вы знаете семейство распространения, из которого ваши данные вытекают, например, normal или poisson (b), вы можете оценить параметры этого семейства, учитывая набор данных.
Теперь вы можете определить гипотезу о том, что данные из этого Распространения и альтернативная гипотеза (H0) о том, что данные не из этого распределения. Если вы нарисуете случайную выборку из вашего предполагаемого распределения, это распределенное распределение должно быть в среднем вероятнее всего из распределения в качестве наблюдаемого образца. Если это не так, то
Однако, вероятно, более интересно найти подпространство, в котором находится выброс. Это можно сделать с помощью следующей эмпирической процедуры. Если вы сейчас оцениваете параметры своего дистрибутива, данные по данным. Вы можете сравнить предполагаемое распределение с гистограммой видимых данных. Это дает вам для каждого бункера гистограммы вероятность того, что ic содержит выброс. Для высокоразмерных данных это можно проверить программно.
, что зависит от контекста. На это нельзя ответить в целом. – cel
как это зависит от контекста? Любые примеры? – Luks