Лучший способ прочитать очень большой файл в Python

У меня есть текстовый файл размером 100 ГБ, содержащий около 50 тыс. Строк, не такой же длины.Лучший способ прочитать очень большой файл в Python

Он слишком велик для размещения в памяти, поэтому в настоящее время я читаю его по строкам. Это также занимает слишком много времени. Есть ли более умный способ прочитать файл? Например, чтобы читать несколько строк за раз?

источник

2015-05-20 Roy

Имея файл такого размера, я считаю, что более важным вопросом является «Что вы делаете с данными во время чтения?» а не как читать. – AKX

Когда вы говорите «занимает слишком много времени», вам нужно посмотреть, где накладные расходы. Вы сделали предположение, что это IO замедляет ситуацию, и вы можете быть правы, но не видя кода, это невозможно сказать. – cdarke

Вам нужно прочесть это по строкам? Вы могли бы просто «прочитать» максимальную сумму, которую можете прилично обработать, а затем сделать. –

Основная итерация по линиям файла, как это:

with open(filename) as f: 
    for line in f: 
     do_stuff(line)

Это на самом деле читает только текущую строку в памяти и не более. Если вы хотите иметь мелкозернистый контроль над размером буфера, я предлагаю вместо этого использовать io.open (например, когда ваши линии имеют одинаковую длину, это может быть полезно).

Если операция на ваших данных на самом деле не связаны IO но ЦП, это может быть полезно использовать мультипроцессирование:

import multiprocessing 

pool = multiprocessing.Pool(8) # play around for performance 

with open(filename) as f: 
    pool.map(do_stuff, f)

Это не ускорить фактическое чтение, но может повысить производительность при обработке строк.

источник

2015-05-20 08:47:43 Constantinius

Использование многопроцессорности здесь во многом зависит от того, связана ли проблема с I/O или CPU. –

Да, вот почему я упомянул об этом в своем ответе. – Constantinius

Спасибо. Но, к сожалению, мои линии не имеют одинаковой длины. – Roy

Лучший способ прочитать очень большой файл в Python

ответ

Смежные вопросы