Я пытался обработать мой огромный файл CSV (более 20G), но процесс был убит при чтении всего CSV-файла в память. Чтобы избежать этой проблемы, я пытаюсь прочитать второй столбец за строкой.эффективно прочитал данные из огромного файла CSV
Например, второй столбец содержит данные, как
- ххх, компьютер хорошо
ххх, построить алгоритм
import collections wordcount = collections.Counter() with open('desc.csv', 'rb') as infile: for line in infile: wordcount.update(line.split())
Мой код работает для целых столбцов , как читать только второй столбец без использования CSV-ридера?
Вы можете использовать итерацию (для циклов/выход) вместо загрузки большого количества данных в память. Я не знаю, сколько у вас контроля над отдельными частями, поэтому я не могу привести пример. –
@DennisKuypers, спасибо. что вы подразумеваете под контролем? – Kun
Что я имею в виду: Можете ли вы изменить код или просто взять результат одной библиотеки в следующую. Возможно, вы можете использовать 'для чего-то в descs:' для повторения результатов по одному. Вероятно, вы должны опустить '.tolist()'. Опять же, я не знаю библиотеки, поэтому я не могу сказать вам правильный путь. –