У меня довольно длинный и (для меня) сложный вопрос. Я голосование данных от Совета Европейского Союза, где электоральное поведение для каждой страны закодировано в соответствии с номинальной шкалой:Переформатирование данных в формат панели в R
0: yes
1: no
2: Abstention
3: no with a negative statement
4: Abstention with a negative statement
5: yes with a negative statement
данные в следующем формате (см конца поста для свалка 20 наблюдений из набора данных):
Country1 Country2 Country3 ... Date
1 0 0 ... 2004-12-12
1 2 0 ... 2003-02-14
2 0 1 ... 2004-05-22
... ... ... ... ...
Прежде всего я хотел бы агрегировать данные в месячные интервалы, где в течение каждого месяца мы имеем сумму, сколько 0,1,2 и т.д. есть были для каждой страны. В идеале данные должны выглядеть следующим образом:
Month Country sum of 0s sum of 1s Sum of 2s
January Country1 2 0 1
January Country2 4 0 0
... ... ... ... ...
Как только это было сделано, я хотел бы поместить данные в формат панели, как это:
Country Month sum of 0s sum of 1s sum of 2s
Country1 January 2 0 1
Country1 February 0 1 3
... ... ... ... ...
Country2 January 4 0 0
Country2 February 2 2 0
... ... ... ... ...
Я сожалею, если это очень много времени вопрос, но я играю с совокупностью, по-разному применяю функции навсегда, не имея возможности получить желаемый результат. Любая помощь будет оценена!
20 наблюдений из набора данных (выход из функции dput()):
structure(list(Recitals = c(29L, 13L, 2L, 20L, 10L, 18L, 29L,
6L, 4L, 16L, 7L, 6L, 12L, 23L, 6L, 10L, 2L, 6L, 9L, 8L, 7L),
Voting_Rule = structure(c(4L, 4L, 5L, 5L, 5L, 5L, 5L, 4L,
4L, 4L, 5L, 4L, 5L, 4L, 5L, 4L, 4L, 5L, 4L, 4L, 4L), .Label = c("0",
"Qualified Majority", "Simple Majority", "Unanimity", "Qualified majority",
"Simple majority"), class = "factor"), Belgium = c(0L, 0L,
0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L,
0L, 0L, 0L, 0L), Denmark = c(0L, 0L, 0L, 0L, 0L, 0L, 0L,
0L, 0L, 0L, 0L, 0L, 1L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L),
Czech.Republic = c(0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L,
0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L), Germany = c(0L,
0L, 0L, 0L, 0L, 4L, 0L, 0L, 0L, 0L, 0L, 0L, 2L, 0L, 0L, 0L,
0L, 0L, 0L, 0L, 0L), Estonia = c(0L, 0L, 0L, 0L, 0L, 0L,
0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L
), Greece = c(0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L,
0L, 2L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L), Spain = c(0L, 0L,
0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L,
0L, 0L, 0L, 0L), France = c(0L, 0L, 0L, 3L, 0L, 0L, 0L, 0L,
0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L), Ireland = c(0L,
0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L,
0L, 0L, 0L, 0L, 0L), Italy = c(0L, 0L, 0L, 0L, 0L, 0L, 5L,
0L, 0L, 0L, 0L, 0L, 2L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L),
Cyprus = c(0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L,
0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L), Latvia = c(0L, 0L, 0L,
0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L,
0L, 0L, 0L), Lithuania = c(0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L,
0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L), Luxembourg = c(0L,
0L, 0L, 0L, 0L, 4L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L,
0L, 0L, 0L, 0L, 0L), Hungary = c(0L, 0L, 0L, 0L, 0L, 0L,
0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L
), Malta = c(0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L,
0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L), Netherlands = c(0L,
0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L,
0L, 0L, 0L, 0L, 0L), Austria = c(0L, 0L, 0L, 1L, 0L, 0L,
0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L
), Poland = c(0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L,
0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L), Portugal = c(0L,
0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L,
0L, 0L, 0L, 0L, 0L), Slovenia = c(0L, 0L, 0L, 0L, 0L, 0L,
0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L
), Slovakia = c(0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L,
0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L), Finland = c(0L,
0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L,
0L, 0L, 0L, 0L, 0L), Sweden = c(0L, 0L, 0L, 0L, 0L, 0L, 0L,
0L, 0L, 0L, 0L, 0L, 2L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L),
UK = c(0L, 0L, 0L, 0L, 0L, 0L, 5L, 0L, 0L, 0L, 5L, 0L, 0L,
0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L), Dates = structure(c(12716,
12716, 12716, 12674, 12674, 12698, 12705, 12724, 12738, 12738,
12716, 12741, 12744, 12754, 12754, 12758, 12758, 12758, 12759,
12759, 12759), class = "Date")), .Names = c("Recitals", "Voting_Rule",
"Belgium", "Denmark", "Czech.Republic", "Germany", "Estonia",
"Greece", "Spain", "France", "Ireland", "Italy", "Cyprus", "Latvia",
"Lithuania", "Luxembourg", "Hungary", "Malta", "Netherlands",
"Austria", "Poland", "Portugal", "Slovenia", "Slovakia", "Finland",
"Sweden", "UK", "Dates"), row.names = c(752L, 753L, 762L, 774L,
775L, 776L, 777L, 780L, 789L, 790L, 793L, 794L, 797L, 816L, 817L,
818L, 819L, 820L, 824L, 825L, 826L), class = "data.frame")
Спасибо за быстрый ответ, код работает так, как должен, у меня есть только один вопрос: использование пакета reshape2, как представляется, требует месячных по алфавиту. Можно ли упорядочить их в хронологическом порядке (т. Е. Январь, февраль и т. Д.)? –
Reshape не знает, в какие месяцы заказа - вам нужно сказать R, что с использованием коэффициента с правильно упорядоченными уровнями. Также см. 'Count' для быстрой альтернативы вычислению' d3'. – hadley
Спасибо, и да, count() доступен. Но, вероятно, count() дает «длинный» формат и не может дать «широкий» формат, если мое понимание правильное, поэтому в случае с count() необходимо другое преобразование. – kohske