2016-10-18 3 views
-1

Я нашел этот скрипт для идентификации и удаления выбросов в ваших данных. Код позволяет вам выбрать, хотите ли вы удалить обнаруженные выбросы или нет. Здесь будет ссылка на код и статья для него:Табличные выбросы в R

https://www.r-bloggers.com/identify-describe-plot-and-remove-the-outliers-from-the-dataset/

Что я хочу сделать, это не удалить выбросы, но копировать их и создавать различные наборы данных с ними. Например, если у меня есть набор данных из 100 000 записей, и у меня есть 3500 выбросов, обнаруженных этим скриптом, я хочу взять эти 3500 записей и создать полный набор данных, содержащий только их, поэтому я могу сделать дополнительный анализ на них позже. Я не хочу удалять их из исходного набора данных.

Есть ли способ сделать это? Спасибо!

Пример:

var1 var2 
a  15  
b  1 
c  2 
d  1 
e  3 

Алгоритм затем распознает эту строку 1

var1 var2 
a  15 

расположена обособленно и отображает что-то в этом роде:

Выпадающие обнаружены: 1 Процент: 20%

И так далее и так далее. Однако сценарий не дает мне отдельный набор данных, содержащий только выбросы. Как мне это сделать? Пожалуйста?

+2

Добро пожаловать в StackOverflow. Пожалуйста, предоставьте [MCVE] –

+0

@ StevenBeaupré. Я отредактировал этот вопрос. Надеюсь, этого будет достаточно, потому что я действительно ничего не могу дать в качестве информации и примеров. –

ответ

1

Вы можете получить выбросы с помощью: boxplot.stats(x)$out

Смежные вопросы