2015-10-09 4 views
1

Я работаю над проектом для класса, и я хотел бы добавить вес к моим данным. Наш класс использует данные из этого турнира kaggle (https://www.kaggle.com/c/2013-american-community-survey/data).Использование весов в R

Я создал сводку и гистограмму для данных, но теперь я хочу повторно запустить их для отражения веса. Текущий код у меня есть: [pus.keep.df это просто уменьшенная версия dataframe]

#Libraries 
library(data.table) 
library(magrittr) 
library(ggplot2) 
library(dplyr) 
library(scales) 
library(gcookbook) 

#Summary 
summary(pus.keep.df$AGEP) 

#Distribution 
pus.keep.df %>% 
    group_by (AGEP) %>% 
    summarise(age.weight=round(100*n()/3132795,1)) %>% 
    ggplot(aes(x=AGEP,y=age.weight)) + 
    geom_bar(stat="identity") + 
geom_text(aes(label=age.weight), vjust=-0.2) 

Кроме того, возраст имеет так много любых категорий, сюжет выглядит сумасшедшим. Если кто-то знает, как положить их в бункеры около 10, это также будет очень полезно!

Спасибо!

Благодарим вас за отзыв! Вывод команды dput для меньшего файла:

structure(list(AGEP = c(8L, 15L, 34L, 28L, 62L, 23L, 13L, 51L, 
52L, 15L), RaceCode.f = structure(c(1L, 1L, 1L, 1L, 2L, 1L, 2L, 
6L, 1L, 1L), .Label = c("White", "Black", "AmericanIndian", "AlaskaNative", 
"Native", "Asian", "PacificIslander", "Other", "MultiRacial"), class =  "factor"), 
MartialStatus.f = structure(c(NA, 6L, 1L, 6L, 4L, 1L, NA, 
6L, 1L, 6L), .Label = c("SpousePresent", "SpouseAbsent", 
"Widowed", "Divorced", "Separated", "NeverMarried"), class = "factor"), 
Sex.f = structure(c(1L, 2L, 2L, 1L, 2L, 2L, 2L, 2L, 1L, 1L 
), .Label = c("Male", "Female"), class = "factor"), SciEng.f = structure(c(NA, 
NA, 1L, NA, NA, NA, NA, 2L, NA, NA), .Label = c("Yes", "No" 
), class = "factor"), MaxEducation.f = structure(c(5L, 12L, 
23L, 17L, 19L, 17L, 10L, 21L, 18L, 12L), .Label = c("None", 
"Pre-School", "Kindergarten", "Grade1", "Grade2", "Grade 3", 
"Grade4", "Grade5", "Grade6", "Grade7", "Grade8", "Grade9", 
"Grade10", "Grade11", "Grade12_NoDiploma", "Grade12_Diploma", 
"GED", "Less1YrCollege", "1OrMoreYrCollege", "AssociatesDegree", 
"BachelorsDegree", "MastersDegree", "DegreeBeyondBachelors", 
"Doctorate"), class = "factor"), Citizenship.f = structure(c(1L, 
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L), .Label = c("US", "USTerritory", 
"USParents", "Naturalized", "NotUS"), class = "factor"), 
AreaofBirth.f = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 
1L, 1L), .Label = c("US", "USTerritory", "LatinAmerica", 
"Asia", "Europe", "Africa", "NorthernAmerican", "Oceania" 
), class = "factor"), ParentalNativity.f = structure(c(NA, 
1L, NA, NA, NA, NA, 1L, NA, NA, 4L), .Label = c("BothNative", 
"BothFatherForeign", "BothMotherForeign", "BothForiegn", 
"FatherOnlyNative", "FatherOnlyForeign", "MotherOnlyNative", 
"MotherOnlyForeign"), class = "factor"), EnglishAbility.f = structure(c(NA, 
NA, NA, NA, NA, NA, NA, NA, NA, 1L), .Label = c("VeryWell", 
"Well", "NotWell", "None"), class = "factor"), LanguageInHome.f = structure(c(2L, 
2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 1L), .Label = c("OtherLanguage", 
"EnglishOnly"), class = "factor"), MilitaryStatus.f = structure(c(NA, 
NA, 4L, 4L, 4L, 4L, NA, 4L, 4L, NA), .Label = c("OnActiveDuty", 
"PastActiveDuty", "TrainingReserves", "NeverServed"), class = "factor"), 
TravelTimeToWork.f = c(NA, NA, 40L, NA, NA, 60L, NA, 12L, 
NA, NA), WorkTrans.f = structure(c(NA, NA, 2L, NA, NA, 3L, 
NA, 1L, NA, NA), .Label = c("PersonalVehicle", "Bus", "StreetCar", 
"Subway", "Railroad", "Ferryboat", "Taxicab", "Motorcycle", 
"Bicycle", "Walk", "WorkAtHome", "Other"), class = "factor"), 
WeeklyHoursWorked.f = structure(c(NA, NA, 50L, NA, NA, 40L, 
NA, 50L, 99L, NA), .Label = c("1", "2", "3", "4", "5", "6", 
"7", "8", "9", "10", "11", "12", "13", "14", "15", "16", 
"17", "18", "19", "20", "21", "22", "23", "24", "25", "26", 
"27", "28", "29", "30", "31", "32", "33", "34", "35", "36", 
"37", "38", "39", "40", "41", "42", "43", "44", "45", "46", 
"47", "48", "49", "50", "51", "52", "53", "54", "55", "56", 
"57", "58", "59", "60", "61", "62", "63", "64", "65", "66", 
"67", "68", "69", "70", "71", "72", "73", "74", "75", "76", 
"77", "78", "79", "80", "81", "82", "83", "84", "85", "86", 
"87", "88", "89", "90", "91", "92", "93", "94", "95", "96", 
"97", "98", "99"), class = "factor"), AnnaulWeeksWorked.f = structure(c(NA, 
NA, 1L, NA, NA, 6L, NA, 1L, 4L, NA), .Label = c("50to52", 
"48to49", "40to47", "27to39", "14to26", "LessThan14"), class = "factor"), 
AnnualWages.f = structure(c(NA, 1L, 627L, 1L, 1L, 92L, NA, 
562L, 630L, 1L), .Label = c("0", "4", "10", "20", "30", "40", 
"50", "60", "70", "80", "90", "100", "110", "120", "130", 
"140", "150", "160", "170", "180", "190", "200", "210", "220", 
"230", "240", "250", "260", "270", "280", "290", "300", "310", 
"320", "330", "340", "350", "360", "370", "380", "390", "400", 
"410", "420", "430", "440", "450", "460", "470", "480", "490", 
"500", "510", "520", "530", "540", "550", "560", "570", "580", 
"590", "600", "610", "620", "630", "640", "650", "660", "670", 
"680", "690", "700", "710", "720", "730", "740", "750", "760", 
"770", "780", "790", "800", "810", "820", "830", "840", "850", 
"860", "870", "880", "890", "900", "910", "920", "930", "940", 
"950", "960", "970", "980", "990", "1000", "1100", "1200", 
"1300", "1400", "1500", "1600", "1700", "1800", "1900", "2000", 
"2100", "2200", "2300", "2400", "2500", "2600", "2700", "2800", 
"2900", "3000", "3100", "3200", "3300", "3400", "3500", "3600", 
"3700", "3800", "3900", "4000", "4100", "4200", "4300", "4400", 
"4500", "4600", "4700", "4800", "4900", "5000", "5100", "5200", 
"5300", "5400", "5500", "5600", "5700", "5800", "5900", "6000", 
"6100", "6200", "6300", "6400", "6500", "6600", "6700", "6800", 
"6900", "7000", "7100", "7200", "7300", "7400", "7500", "7600", 
"7700", "7800", "7900", "8000", "8100", "8200", "8300", "8400", 
"8500", "8600", "8700", "8800", "8900", "9000", "9100", "9200", 
"9300", "9400", "9500", "9600", "9700", "9800", "9900", "10000", 
"10100", "10200", "10300", "10400", "10500", "10600", "10700", 
"10800", "10900", "11000", "11100", "11200", "11300", "11400", 
"11500", "11600", "11700", "11800", "11900", "12000", "12100", 
"12200", "12300", "12400", "12500", "12600", "12700", "12800", 
"12900", "13000", "13100", "13200", "13300", "13400", "13500", 
"13600", "13700", "13800", "13900", "14000", "14100", "14200", 
"14300", "14400", "14500", "14600", "14700", "14800", "14900", 
"15000", "15100", "15200", "15300", "15400", "15500", "15600", 
"15700", "15800", "15900", "16000", "16100", "16200", "16300", 
"16400", "16500", "16600", "16700", "16800", "16900", "17000", 
"17100", "17200", "17300", "17400", "17500", "17600", "17700", 
"17800", "17900", "18000", "18100", "18200", "18300", "18400", 
"18500", "18600", "18700", "18800", "18900", "19000", "19100", 
"19200", "19300", "19400", "19500", "19600", "19700", "19800", 
"19900", "20000", "20100", "20200", "20300", "20400", "20500", 
"20600", "20700", "20800", "20900", "21000", "21100", "21200", 
"21300", "21400", "21500", "21600", "21700", "21800", "21900", 
"22000", "22100", "22200", "22300", "22400", "22500", "22600", 
"22700", "22800", "22900", "23000", "23100", "23200", "23300", 
"23400", "23500", "23600", "23700", "23800", "23900", "24000", 
"24100", "24200", "24300", "24400", "24500", "24600", "24700", 
"24800", "24900", "25000", "25100", "25200", "25300", "25400", 
"25500", "25600", "25700", "25800", "25900", "26000", "26100", 
"26200", "26300", "26400", "26500", "26600", "26700", "26800", 
"26900", "27000", "27100", "27200", "27300", "27400", "27500", 
"27600", "27700", "27800", "27900", "28000", "28100", "28200", 
"28300", "28400", "28500", "28600", "28700", "28800", "28900", 
"29000", "29100", "29200", "29300", "29400", "29500", "29600", 
"29700", "29800", "29900", "30000", "30100", "30200", "30300", 
"30400", "30500", "30600", "30700", "30800", "30900", "31000", 
"31100", "31200", "31300", "31400", "31500", "31600", "31700", 
"31800", "31900", "32000", "32100", "32200", "32300", "32400", 
"32500", "32600", "32700", "32800", "32900", "33000", "33100", 
"33200", "33300", "33400", "33500", "33600", "33700", "33800", 
"33900", "34000", "34100", "34200", "34300", "34400", "34500", 
"34600", "34700", "34800", "34900", "35000", "35100", "35200", 
"35300", "35400", "35500", "35600", "35700", "35800", "35900", 
"36000", "36100", "36200", "36300", "36400", "36500", "36600", 
"36700", "36800", "36900", "37000", "37100", "37200", "37300", 
"37400", "37500", "37600", "37700", "37800", "37900", "38000", 
"38100", "38200", "38300", "38400", "38500", "38600", "38700", 
"38800", "38900", "39000", "39100", "39200", "39300", "39400", 
"39500", "39600", "39700", "39800", "39900", "40000", "40100", 
"40200", "40300", "40400", "40500", "40600", "40700", "40800", 
"40900", "41000", "41100", "41200", "41300", "41400", "41500", 
"41600", "41700", "41800", "41900", "42000", "42100", "42200", 
"42300", "42400", "42500", "42600", "42700", "42800", "42900", 
"43000", "43100", "43200", "43300", "43400", "43500", "43600", 
"43700", "43800", "43900", "44000", "44100", "44200", "44300", 
"44400", "44500", "44600", "44700", "44800", "44900", "45000", 
"45100", "45200", "45300", "45400", "45500", "45600", "45700", 
"45800", "45900", "46000", "46100", "46200", "46300", "46400", 
"46500", "46600", "46700", "46800", "46900", "47000", "47100", 
"47200", "47300", "47400", "47500", "47600", "47700", "47800", 
"47900", "48000", "48100", "48200", "48300", "48400", "48500", 
"48600", "48700", "48800", "48900", "49000", "49100", "49200", 
"49300", "49400", "49500", "49600", "49700", "49800", "49900", 
"50000", "51000", "52000", "53000", "54000", "55000", "56000", 
"57000", "58000", "59000", "60000", "61000", "62000", "63000", 
"64000", "65000", "66000", "67000", "68000", "69000", "70000", 
"71000", "72000", "73000", "74000", "75000", "76000", "77000", 
"78000", "79000", "80000", "81000", "82000", "83000", "84000", 
"85000", "86000", "87000", "88000", "89000", "90000", "91000", 
"92000", "93000", "94000", "95000", "96000", "97000", "98000", 
"99000", "100000", "101000", "102000", "103000", "104000", 
"105000", "106000", "107000", "108000", "109000", "110000", 
"111000", "112000", "113000", "114000", "115000", "116000", 
"117000", "118000", "119000", "120000", "121000", "122000", 
"123000", "124000", "125000", "126000", "127000", "128000", 
"129000", "130000", "131000", "132000", "133000", "134000", 
"135000", "136000", "137000", "138000", "139000", "140000", 
"141000", "142000", "143000", "144000", "145000", "146000", 
"147000", "148000", "149000", "150000", "151000", "152000", 
"153000", "154000", "155000", "156000", "157000", "158000", 
"159000", "160000", "161000", "162000", "163000", "164000", 
"165000", "166000", "167000", "168000", "169000", "170000", 
"171000", "172000", "173000", "174000", "175000", "176000", 
"177000", "178000", "179000", "180000", "181000", "182000", 
"183000", "184000", "185000", "186000", "187000", "188000", 
"189000", "190000", "191000", "192000", "193000", "194000", 
"195000", "196000", "197000", "198000", "199000", "200000", 
"201000", "202000", "203000", "204000", "205000", "206000", 
"207000", "208000", "209000", "210000", "211000", "212000", 
"213000", "214000", "215000", "216000", "217000", "218000", 
"219000", "220000", "221000", "222000", "223000", "224000", 
"225000", "226000", "227000", "228000", "229000", "230000", 
"231000", "232000", "233000", "234000", "235000", "236000", 
"237000", "238000", "239000", "240000", "241000", "242000", 
"243000", "244000", "245000", "246000", "247000", "248000", 
"249000", "250000", "251000", "252000", "253000", "254000", 
"255000", "256000", "257000", "258000", "259000", "260000", 
"261000", "262000", "263000", "264000", "265000", "266000", 
"267000", "268000", "269000", "270000", "271000", "272000", 
"273000", "274000", "275000", "276000", "277000", "278000", 
"279000", "280000", "281000", "282000", "283000", "284000", 
"285000", "286000", "287000", "288000", "289000", "290000", 
"291000", "292000", "293000", "294000", "295000", "296000", 
"297000", "298000", "299000", "300000", "301000", "302000", 
"303000", "304000", "305000", "306000", "308000", "309000", 
"310000", "312000", "313000", "314000", "315000", "317000", 
"318000", "319000", "320000", "321000", "322000", "323000", 
"324000", "325000", "326000", "327000", "328000", "330000", 
"333000", "334000", "335000", "336000", "338000", "340000", 
"345000", "350000", "351000", "355000", "360000", "361000", 
"365000", "367000", "368000", "370000", "375000", "378000", 
"380000", "385000", "388000", "390000", "393000", "394000", 
"398000", "399000", "402000", "404000", "406000", "408000", 
"417000", "421000", "467000", "475000", "484000", "550000", 
"560000", "655000", "660000"), class = "factor"), OtherAnnualIncome.f = structure(c(NA, 
1L, 1L, 18L, 1L, 1L, NA, 1L, 1L, 1L), .Label = c("0", "4", 
"10", "20", "30", "40", "50", "60", "70", "80", "90", "100", 
"110", "120", "130", "140", "150", "160", "170", "180", "190", 
"200", "210", "220", "230", "240", "250", "260", "270", "280", 
"290", "300", "310", "320", "330", "340", "350", "360", "370", 
"380", "390", "400", "410", "420", "430", "440", "450", "460", 
"470", "480", "490", "500", "510", "520", "530", "540", "550", 
"560", "570", "580", "590", "600", "610", "620", "630", "640", 
"650", "660", "670", "680", "690", "700", "710", "720", "730", 
"740", "750", "760", "770", "780", "790", "800", "810", "820", 
"830", "840", "850", "860", "870", "880", "890", "900", "910", 
"920", "930", "940", "950", "960", "970", "980", "990", "1000", 
"1100", "1200", "1300", "1400", "1500", "1600", "1700", "1800", 
"1900", "2000", "2100", "2200", "2300", "2400", "2500", "2600", 
"2700", "2800", "2900", "3000", "3100", "3200", "3300", "3400", 
"3500", "3600", "3700", "3800", "3900", "4000", "4100", "4200", 
"4300", "4400", "4500", "4600", "4700", "4800", "4900", "5000", 
"5100", "5200", "5300", "5400", "5500", "5600", "5700", "5800", 
"5900", "6000", "6100", "6200", "6300", "6400", "6500", "6600", 
"6700", "6800", "6900", "7000", "7100", "7200", "7300", "7400", 
"7500", "7600", "7700", "7800", "7900", "8000", "8100", "8200", 
"8300", "8400", "8500", "8600", "8700", "8800", "8900", "9000", 
"9100", "9200", "9300", "9400", "9500", "9600", "9700", "9800", 
"9900", "10000", "10100", "10200", "10300", "10400", "10500", 
"10600", "10700", "10800", "10900", "11000", "11100", "11200", 
"11300", "11400", "11500", "11600", "11700", "11800", "11900", 
"12000", "12100", "12200", "12300", "12400", "12500", "12600", 
"12700", "12800", "12900", "13000", "13100", "13200", "13300", 
"13400", "13500", "13600", "13700", "13800", "13900", "14000", 
"14100", "14200", "14300", "14400", "14500", "14600", "14700", 
"14800", "14900", "15000", "15100", "15200", "15300", "15400", 
"15500", "15600", "15700", "15800", "15900", "16000", "16100", 
"16200", "16300", "16400", "16500", "16600", "16700", "16800", 
"16900", "17000", "17100", "17200", "17300", "17400", "17500", 
"17600", "17700", "17800", "17900", "18000", "18100", "18200", 
"18300", "18400", "18500", "18600", "18700", "18800", "18900", 
"19000", "19100", "19200", "19300", "19400", "19500", "19600", 
"19700", "19800", "19900", "20000", "20100", "20200", "20300", 
"20400", "20500", "20600", "20700", "20800", "20900", "21000", 
"21100", "21200", "21300", "21400", "21500", "21600", "21700", 
"21800", "21900", "22000", "22100", "22200", "22300", "22400", 
"22500", "22600", "22700", "22800", "22900", "23000", "23100", 
"23200", "23300", "23400", "23500", "23600", "23700", "23800", 
"23900", "24000", "24100", "24200", "24300", "24400", "24500", 
"24600", "24700", "24800", "24900", "25000", "25100", "25200", 
"25300", "25400", "25500", "25600", "25700", "25800", "25900", 
"26000", "26100", "26200", "26300", "26400", "26500", "26600", 
"26700", "26800", "26900", "27000", "27100", "27200", "27300", 
"27400", "27500", "27600", "27700", "27800", "27900", "28000", 
"28100", "28200", "28300", "28400", "28500", "28600", "28700", 
"28800", "28900", "29000", "29100", "29200", "29300", "29400", 
"29500", "29600", "29700", "29800", "29900", "30000", "30100", 
"30200", "30300", "30400", "30500", "30600", "30700", "30800", 
"30900", "31000", "31100", "31200", "31300", "31400", "31500", 
"31600", "31700", "31800", "31900", "32000", "32100", "32200", 
"32300", "32400", "32500", "32600", "32700", "32800", "32900", 
"33000", "33100", "33200", "33300", "33400", "33500", "33600", 
"33700", "33800", "33900", "34000", "34100", "34200", "34300", 
"34400", "34500", "34600", "34700", "34800", "34900", "35000", 
"35100", "35200", "35300", "35400", "35500", "35600", "35700", 
"35800", "35900", "36000", "36100", "36200", "36300", "36400", 
"36500", "36600", "36700", "36800", "36900", "37000", "37100", 
"37200", "37300", "37400", "37500", "37600", "37700", "37800", 
"37900", "38000", "38100", "38200", "38300", "38400", "38500", 
"38600", "38700", "38800", "38900", "39000", "39100", "39200", 
"39300", "39400", "39500", "39600", "39700", "39800", "39900", 
"40000", "40100", "40200", "40300", "40400", "40500", "40600", 
"40700", "40800", "40900", "41000", "41100", "41200", "41300", 
"41400", "41500", "41600", "41700", "41800", "41900", "42000", 
"42100", "42200", "42300", "42400", "42500", "42600", "42700", 
"42800", "42900", "43000", "43100", "43200", "43300", "43400", 
"43500", "43600", "43700", "43800", "43900", "44000", "44100", 
"44200", "44300", "44400", "44500", "44600", "44700", "44800", 
"44900", "45000", "45100", "45300", "45400", "45500", "45600", 
"45700", "45800", "45900", "46000", "46100", "46200", "46300", 
"46400", "46500", "46700", "46800", "46900", "47000", "47100", 
"47200", "47300", "47400", "47500", "47600", "47700", "47800", 
"47900", "48000", "48100", "48300", "48400", "48500", "48600", 
"48700", "49000", "49100", "49200", "49400", "49500", "49700", 
"49800", "49900", "50000", "51000", "52000", "53000", "54000", 
"55000", "56000", "57000", "58000", "59000", "60000", "62000", 
"63000", "64000", "65000", "66000", "67000", "68000", "69000", 
"70000", "71000", "73000", "77000", "79000", "83000"), class = "factor"), 
PWGTP = c(79L, 45L, 77L, 114L, 187L, 79L, 122L, 82L, 12L, 
42L)), .Names = c("AGEP", "RaceCode.f", "MartialStatus.f", 
"Sex.f", "SciEng.f", "MaxEducation.f", "Citizenship.f", "AreaofBirth.f", 
"ParentalNativity.f", "EnglishAbility.f", "LanguageInHome.f", 
"MilitaryStatus.f", "TravelTimeToWork.f", "WorkTrans.f", "WeeklyHoursWorked.f", 
"AnnaulWeeksWorked.f", "AnnualWages.f", "OtherAnnualIncome.f", 
"PWGTP"), class = c("tbl_df", "data.frame"), row.names = c(NA, 
-10L)) 
+1

Можете ли вы место вывод 'dput (pus.keep.df)' здесь, чтобы другие могли воспроизвести это? – JasonAizkalns

+0

@JasonAizkalns Я попытался запустить команду dput (pus.keep.df), но в наборе данных имеется более 3 миллионов экземпляров, поэтому я не могу вырезать и вставлять результат. Если вы загрузите данные здесь (https://www.kaggle.com/c/2013-american-community-survey/data), тот же синтаксис будет работать, потому что я не изменил имя переменной для возраста (AGEP). Есть ли лучший способ поделиться набором данных? Кроме того, переменное имя для веса PWGTP. Спасибо! –

+0

Существует лучший способ поделиться: использовать ** намного меньше ** примерный набор данных –

ответ

0

Как насчет просто

ggplot(df, aes(x=AGEP)) + 
    geom_histogram(binwidth=5, aes(weight=PWGTP), fill='blue') + 
    xlab('AGEP') + ylab('Weighted density') + guides(fill=FALSE) + 
    ggtitle('Your title here') 

который выглядит как (на подмножестве):

enter image description here

Смежные вопросы