У меня есть ~ 200 текстовых файлов размером около 10Kb каждый, и все они называются fastqc_data.txt
, каждый в другом подкаталоге. Файлы были созданы третьей стороной. Верх каждого файла показан ниже. Моя цель - создать новый файл, первый столбец которого будет содержать значение «Имя файла» (в этом примере «1265-H19_AGGCAG_L007_R1_001.fastq», второй столбец будет содержать значение «Всего последовательностей» («41284554») и третий столбец будет содержать значение "длины последовательности" ("100")bash: извлекать значения в таблицу
Пример входного файла 1:.
FastQC 0.10.1
Basic Statistics pass
Measure Value
Filename 1265-H19_AGGCAG_L007_R1_001.fastq
File type Conventional base calls
Encoding Sanger/Illumina 1.9
Total Sequences 41284554
Filtered Sequences 0
Sequence length 100
%GC 41
END_MODULE
Пример выходного файла:
Filename Total.Sequences Sequence.length
1265-H19_AGGCAG_L007_R1_001.fastq 41284554 100
1265-H20_TTTCAG_L007_R1_001.fastq 51387564 103
1265-H21_CGGTTG_L007_R1_001.fastq 33254771 96
Это все содержимое одного файла? Наверное, нет, если вы говорите, что они 10kb каждый. –
Это не все содержимое файла. Больше об этом выглядит следующим образом: последовательностей помечены как плохое качество 0 длина последовательности 100 % GC 40 >> END_MODULE >> За базовую последовательность качества прохода #Base Средней Медиана Нижной квартиль Верхний квартиль десятого процентиль 90-й процентиль 1 32.22927768362192 33,0 31,0 34,0 31,0 34,0 2 32.471828039631184 34,0 31,0 34,0 31,0 – Sarah
Это очень непроницаемо в комментарии ... важно знать, являются ли линии, которые вы показали, достаточно уникальными. Например, есть ли другие строки в файле, которые начинаются так же, как и те, которые вы пытаетесь сопоставить? Кстати, вы пробовали код в моем ответе? –