2017-02-09 5 views
2

У меня есть dataframe, который я сейчас группирую по категории, в которой у меня около тысячи элементов. Это создает слишком широкую диаграмму, на которой я фактически не интересуюсь большинством данных, так как они все одинаковы.Скрипичный сюжет в R binning большинства групп в «другую» категорию?

Я хочу видеть только графики для элементов, которые превышают пороговое значение в своем максимальном значении, и, возможно, объединить все остальные в «другую» категорию.

Есть ли консервный способ для этого?

ответ

1

fct_lump()forcats package может работать.

Сначала вам нужно обработать значения до пропорций, но у него есть аргумент prop, который «сохраняет значения, которые происходят не менее prop времени» (он группирует остальные в «Другой» уровень).

Существует альтернативный аргумент n для количества уровней, которые необходимо сохранить (также группируя остальные в «Другой» уровень).

Немного more information about forcat s.

+0

Это идеальная отправная точка для меня. fct_lump, в частности, позволяет мне посмотреть на те, для которых у меня больше данных. Я не уверен, как смотреть на те, которые имеют наибольшую дисперсию в измерении. Вы знаете, что это выполнимо? И огромное спасибо! –

+0

Самая высокая дисперсия в пересчете на другую переменную? –

+0

Да. И я мог бы пойти с чем-то более простым, как макс другой переменной. –

Смежные вопросы