2016-12-01 2 views
1

Я пытаюсь разбить огромный файл данных на более мелкие части. Я использую следующие скрипты -Ошибка импорта файла Pandas .DAT с пропущенными строками

df = pd.read_csv(file_name, header=None,encoding='latin1',sep='\t',nrows=100000, skiprows = 100000) 

, но я вижу, что пропуск строки аргумент пропускает около 200 тысяч строк вместо 100000 может кто-нибудь сказать мне, почему это происходит

+0

почему бы не просто указать 'chunksize = 100000' который вернет вам кусочек ФР, так что вы можете разделить пеленгации для каждого блока? – EdChum

+0

Фактический файл - 190 Гб. Я не смогу сразу прочитать все это в памяти. – Uasthana

+0

Вам не нужно с 'chunksize', это будет просто читать следующие строки chunksize, тогда вы можете делать все, что хотите, с помощью chunk – EdChum

ответ

1

Благодаря @EdChum я был в состоянии решить проблему с помощью chunksize с помощью следующего кода: -

i = 0 
tp = pd.read_csv(filename,header=None,encoding='latin1', sep='\t', iterator=True, chunksize=1000000) 
for c in tp: 
    ca = pd.DataFrame(c) 
    ca.to_csv (file_destination +str(i)+'test.csv', index = False, header = False) 
    i = i+1 
Смежные вопросы