2016-10-20 2 views
0

Мне нужно прочитать файл .vcf.gz от пентахо. Я могу прочитать его из «ввода текстового файла» на вкладке «Контент», «сжимается» до «GZ».Pentaho пропускает заголовки, добавляя имя файла для вывода

-Прежде всего, мне нужно пропустить заголовки (в основном каждая строка с # при начале).

-Всегда мне нужно вставить новый столбец, где в каждой строке я вставляю имя файла.

E.g.

Мой файл:

#header 
#header 
#header 
# chr pos ref alt 
    chr1 3 A A 

Что я хочу:

chr1 3 A A id_001 (Taken readeing file name) 

Как я могу добиться этого?

ответ

1

Если вы нашли вкладку «Содержимое», вы должны установить флажок Заголовка. Вы можете указать количество пропущенных строк.

enter image description here

Что касается имени файла, вкладка «Дополнительные поля вывода» это то, что вам нужно.

enter image description here

Вот предварительный вывод:

enter image description here

Если вам необходимо удалить расширение файла из файла, есть несколько способов сделать это.

+0

У меня есть что-то, что я делаю неправильно. Я установил путь к файлам, чтобы получить нужные мне файлы. Я изменил параметр заголовка, как вы показали мне, в соответствии с моими потребностями. Я добавил последний столбец, но он показывает мне только последний столбец. Должен ли я что-то изменить на вкладке «Поля»? – xCloudx8

+0

О да, вам нужны поля. У вас там что-то есть? – CGritton

+0

Хорошо, я решил проблему с полями. Как я могу решить проблему с именем файла? «Мои имена такие: 001.genome.vcf.gz, я хочу удалить каждую вещь после первого, так что только у меня есть 001. Есть ли другие варианты? – xCloudx8

Смежные вопросы