2015-12-24 3 views
0

Мне нужно запустить некоторые регрессионные модели и описания на большом наборе данных. У меня есть папка объемом около 500 файлов (обновление: txt-файлы), которые я хотел бы объединить, и в общей сложности 250 ГБ.Лучший способ обработки большого набора данных в R

Я знаю, как объединить все файлы из папки, но хотя я запускаю его на сервере 128RAM, я все время теряю память.

Я ищу советы и рекомендации по загрузке/объединению этих файлов управляемым способом (если возможно) с использованием RI, которые рассматривают такие пакеты, как «ff» и «bigmemory», будут ли эти предложения я решение?

+1

не знаете, что вы используете для чтения своих данных, но read_csv (from readr) и fread (from data.table) обычно быстрее, чем read.csv или read.table – MLavoie

ответ

0

Я бы предложил пакеты ff и biglm. Последний позволяет запускать регрессию во всем наборе данных, хранящемся на диске (используя ff), загружая меньшие куски в ОЗУ. Используйте read.table.ffdf() для преобразования отдельных файлов txt в файл ff на диске. См. Пример в файле справки для chunk.ffdf(), как запустить регрессию, используя biglm().

Смежные вопросы