У меня есть матрица данных, содержащая два столбца: значение, частота.
Я хочу сделать квадрат стоимости, взвешенный по частоте. Матрица сортируется по значению.R boxplot() и сводка() таблицы частот
> data[1:5,]
value freq
1 28 1184
2 29 1063
3 30 1000
4 31 976
5 32 944
Я прочитал много ответов о похожих проблемах, единственное, что я нашел, это. http://r.789695.n4.nabble.com/boxplot-with-frequencies-counts-td4660330.html
counts<-matrix(rep(data$value,data$freq), ncol=1, byrow=TRUE)
boxplot(counts)
Проблема с построением матрицы повторяющееся каждое значение является то, что он делает невероятно большую матрицу. В то время как R смог сделать это в своей памяти, я работаю над R на виртуальной машине (Ubuntu), и я задаюсь вопросом о действительно больших наборах данных, если может быть альтернативный подход. Возможно, для этой цели создана библиотека?
Вопрос: как вы производите данные со значением/частота? Я предполагаю, что данные должны быть в памяти. Возможно, поможет выборка. Вы можете соответствующим образом масштабировать столбец частоты. – fishtank
Я проанализировал текстовые файлы с помощью Python, построил таблицу частот, суммируя файлы, а затем написал CSV-файл. Затем я использовал команду readcsv() в R. – BAMF4bacon