Я пытаюсь загрузить довольно большой файл csv в R. Он имеет около 50 столбцов и 2 миллиона строк.Большой файл csv полностью не читается в R data.frame
Мой код довольно простой, и я использовал его для открытия файлов раньше, но ни одного такого большого.
mydata <- read.csv('file.csv', header = FALSE, sep=",", stringsAsFactors = FALSE)
В результате он считывает данные, но останавливается после 1080000 строк или около того. Это примерно так же, как и предел excel. Их способ заставить R прочитать весь файл? Почему он останавливается на полпути.
Обновление: (11/30/14) После разговора с поставщиком данных было обнаружено, что это может быть проблема с коррупцией с файлом. Был предоставлен новый файл, который также меньше и легко загружается в R.
Какую операционную систему вы используете? –
Звучит так, будто вы нажимаете ограничение памяти. Если вы можете получить CSV-файл в базу данных SQLite или MySQL, вы можете попробовать использовать 'dplyr', который будет выполнять многие традиционные операции в оперативной памяти в базе данных. В качестве альтернативы вы можете попробовать использовать sqldf для чтения в CSV частично, если вы можете разбить его правильно. Наконец, вы всегда можете развернуть большой экземпляр памяти в AWS, Digital Ocean и т. Д. И выполнять там анализы. – hrbrmstr
Попробуйте «fread» из библиотеки («data.table»). – KFB