2013-10-01 4 views
1

Когда я пытаюсь прочитать gz-файл с python, используя библиотеку gzip, он генерирует ошибку так же, как если бы вы пытались запустить gunzip. Тем не менее, это возможно сделать с помощью perl, потому что я не верю, что используемая библиотека делает дополнительную проверку чистого EOF на считываемом файле.Можете ли вы прочитать неправильно закрытый gz-файл с python?

Мой вопрос: есть ли какие-либо опции или альтернативные библиотеки для чтения такого файла на python или мне просто нужно сделать это в perl?

-Марк

+0

Вы уже пробовали его с Python? http://docs.python.org/2/library/gzip.html –

+0

@ErikAllik: rtfq: ** Когда я пытаюсь прочитать gz-файл с помощью python, используя библиотеку gzip, он генерирует ошибку ** – RickyA

+0

Да, я пробовал используя python gzip, и если файл был неправильно закрыт, он генерирует ошибку, которая является точкой моего вопроса. поскольку python, похоже, делает все, что может сделать perl, я надеялся, что на эту проблему может возникнуть решение python. –

ответ

2

Стандартная библиотека Python можно использовать для этого, хотя и более неуклюже, чем для интактных файлов.

>>> import zlib 
>>> compressed=zlib.compress(str(range(200))) 
>>> len(compressed) 
375 
>>> trunc=compressed[:50] 
>>> zlib.decompress(trunc) 
Traceback (most recent call last): 
    File "<stdin>", line 1, in <module> 
zlib.error: Error -5 while decompressing data: incomplete or truncated stream 
>>> d=zlib.decompressobj() 
>>> d.decompress(trunc) 
'[0, 1, 2, 3, 4, 5, 6, 7, 8, 9' 
>>> d.flush() 
'' 

Обратите внимание, что decompressobj.flush() запрашивает последние данные, поэтому только называют это после того, как ваш входной поток закончился (или на копии - есть метод decompressobj.copy()). Вы можете подавать сжатые данные с помощью как можно большего количества вызовов для распаковки.decompress() по своему усмотрению.

>>> d=zlib.decompressobj() 
>>> for i in range(0,140,10): 
... print repr(d.decompress(compressed[i:i+10])) 
... 
'' 
'' 
'' 
'[0, 1, 2, 3, 4' 
', 5, 6, 7, 8, 9' 
', 10, 11, 12, 13, 14, 15, 16, ' 
'17, 18, 19, 20, 21, 22, 23, ' 
'24, 25, 26, 27, 28, 29, 3' 
'0, 31, 32, 33, 34, 35, 36, ' 
'37, 38, 39, 40, 41, 42, 4' 
'3, 44, 45, 46, 47, 48, 49, ' 
'50, 51, 52, 53, 54, 55, 5' 
'6, 57, 58, 59, 60, 61, 62, 6' 
'3, 64, 65, 66, 67, 68, 6' 
>>> d.flush() 
'' 

(я не видел Flush() на самом деле ничего возвращать, но это, вероятно, потому что это такая простая выборка данных.)

Изменить: Я пропустил одну точку. В файлах Gzip есть заголовок, который обычно обрабатывает модуль gzip, поэтому доступ к zlib для сырых файлов напрямую не будет читать gzip-файлы. Может быть проще использовать GzipFile и читать в небольших кусках.

+0

yann - вы не понимаете, я не пытаюсь понять, как сжимать файлы с zlib, а скорее читать тот, который не был должным образом покраснел/закрыт. –

+0

Вот почему я показываю примеры усечения и частичного чтения. –

Смежные вопросы