После проведения опроса по воспринимаемым проблемам в каждом районе я получаю this dataframe. Поскольку исследование были различные варианты, чтобы выбрать из + открытый один, результаты на открытый вопрос, часто не имеет значения (см):Сочетание нерелевантных/аналогичных наблюдений в одном (другие)
library(dplyr)
library(splitstackshape)
df = read.csv("http://pastebin.com/raw.php?i=tQKHWMvL")
# Splitting multiple answers into different rows.
df = cSplit(df, "Problems", ",", direction = "long")
df = df %>%
group_by(Problems) %>%
summarise(Total = n()) %>%
mutate(freq = Total/sum(Total)*100) %>%
arrange(rank = desc(rank(freq)))
В результате в этом кадре данных:
> df
Source: local data table [34 x 3]
Problems Total freq
1 Hurtos o robos sin violencia 245 25.6008359
2 Drogas 232 24.2424242
3 Peleas callejeras 162 16.9278997
4 Ningún problema 149 15.5694880
5 Agresiones 66 6.8965517
6 Robos con violencia 62 6.4785789
7 Quema contenedores 6 0.6269592
8 Ruidos 5 0.5224660
9 NS/NC 4 0.4179728
10 Desempleo 2 0.2089864
.. ... ... ...
>
Как вам могут видеть результаты после того, как строка 9 в основном неактуальна (только один или два респондента на каждый вариант), поэтому я бы хотел, чтобы они были сгруппированы в один параметр (например, «другие») , не теряя отношения к окрестности (это почему я не могу переименовать значения сейчас). Какие-либо предложения?
Так вы решили, что ваш желаемый результат все же? –
Мой желаемый результат должен состоять в том, чтобы отобразить барьер проблем по кварталам. Однако, будучи источником открытой анкеты, есть много нерелевантных ответов (всего лишь несколько голосов), которые я хотел бы объединить в «Другие» (но поддерживая его отношение к соседству) и другие проблемы, которые на самом деле являются синонимами. У меня есть обновленная информация и расширенный вопрос здесь: http://stackoverflow.com/questions/35813805/aggregating-and-mapping-observations-from-an-open-questionnaire – ccamara