2015-08-16 2 views
0

Я работаю с большими наборами данных, которые я сцепленные с помощью: cat file1.fasta.gz file2.fasta.gz > newfile.fasta.gzпроверить Gunzip декомпрессии

Тогда я разархивировать NewFile с помощью: gunzip newfile.fasta.gz, чтобы работать с ним в некоторой биоинформатике программного обеспечения. Gunzip берет навсегда, и я покидаю компьютер и возвращаюсь позже.

Я беспокоюсь, что процесс может быть неудачным в какой-то момент, оставив частичный файл. Есть ли способ убедиться, что newfile.fasta содержит полное сжатое содержимое newfile.fasta.gz?

inb4: "Не оставляйте свой компьютер"

ответ

0

Это должно быть хорошо. Если вы беспокоитесь, тогда вы можете просто проверить размер файла: newfile.fasta.gz должен быть размером file1.fasta.gz + file2.fasta.gz.

Поскольку, похоже, вы уже распаковали новый файл, вы можете дважды проверить количество записей последовательности в каждом файле fasta.

$ gunzip -c file1.fasta.gz | grep -c '^>' 
$ gunzip -c file2.fasta.gz | grep -c '^>' 
$ grep -c '^>' newfile.fasta 

или если вы можете просто заменить "grep -c '^>'" для wc.

+0

Cheers Emanuel. – Lucas