У меня есть файл умеренного размера (4 ГБ CSV) на компьютере, на котором нет достаточного количества ОЗУ для чтения (8 ГБ на 64-битной Windows). Раньше я просто загружал его на узле кластера и читал его, но мой новый кластер, как представляется, произвольно ограничивал процессы до 4 ГБ оперативной памяти (несмотря на аппаратное обеспечение, имеющее 16 ГБ на машину), поэтому мне нужно краткосрочное исправить ,Стратегии для чтения в CSV-файлах на куски?
Есть ли способ прочитать часть CSV-файла в R, чтобы соответствовать ограничениям доступной памяти? Таким образом, я мог читать в третьей части файла за раз, подмножить его до строк и столбцов, которые мне нужны, а затем читать в следующей трети?
Благодаря комментаторам за указание на то, что я могу потенциально читать весь файл, используя некоторые большие трюки памяти: Quickly reading very large tables as dataframes in R
я могу думать о некоторых других обходных путях (например, открыть в хорошем текстовом редакторе, отсечь-/3 наблюдений, затем загрузите в R), но я предпочел бы избегать их, если это возможно.
Так что чтение его на куски по-прежнему кажется лучшим вариантом.
Это подробно обсуждалось здесь, в частности, ответ Дж. Д. Лонга весьма полезен: http://stackoverflow.com/questions/1727772/quickly-reading-very-large-tables-as-dataframes-in-r –
ff пакет делает кадры данных – mdsumner
Извините, что отвечает на первый вопрос. По-видимому, мой SO search-fu нуждается в хонинговании, так как я искал, но не смог его найти. Это оставляет второй без ответа, хотя: как читать в. CSV-файле в кусках. –