Мне нужно запустить некоторые регрессионные модели и описания на большом наборе данных. У меня есть папка объемом около 500 файлов (обновление: txt-файлы), которые я хотел бы объединить, и в общей сложности 250 ГБ.Лучший способ обработки большого набора данных в R
Я знаю, как объединить все файлы из папки, но хотя я запускаю его на сервере 128RAM, я все время теряю память.
Я ищу советы и рекомендации по загрузке/объединению этих файлов управляемым способом (если возможно) с использованием RI, которые рассматривают такие пакеты, как «ff» и «bigmemory», будут ли эти предложения я решение?
не знаете, что вы используете для чтения своих данных, но read_csv (from readr) и fread (from data.table) обычно быстрее, чем read.csv или read.table – MLavoie