2010-07-28 7 views
0

У меня есть файл SNP, который был обработан с использованием PLINK. У меня есть список из нескольких тысяч SNP. В файле им присваивается один из NA, 0, 1 или 2. Я хочу удалить список SNP, у которых есть NA, то есть они мономорфны. Проблема в том, что файл перечисляет все несколько тысяч SNP по порядку, а затем перечисляет их соответствующие значения после этого в одной строке, разделенной пробелами. Очень сложно понять, какие значения соответствуют SNP на основе ручного контроля.PLINK и удаление частей данных

Есть ли простой способ удалить мономорфные SNP из файла с помощью PLINK? Или это лучше всего сделать с помощью Python?

+1

и plink - .....? – skaffman

+0

Думал, что он сказал plinq в течение секунды! – Will

ответ

1

Если вы еще не нашли его, вы можете удалить мономорфные SNP, используя PLINK --maf.

Удалить мономорфный ОНП в наборе данных (те, с МАФОМ = 0,0) http://www.shapeit.fr/pages/pedmap.html

1

ERM, не NA будет означать, что некоторые ОНПЫ отсутствуют значение данных? Чтобы удалить их, вы должны использовать команду --geno. Цитирует docs:

--geno отфильтровывает все варианты с отсутствующей скоростью соединения, превышающая унаследованным значение (по умолчанию 0,1), чтобы удалить

Команда --maf делает удалить мономорфный ОНП, однако. Установка -maf чуть выше 0 может быть разумной, потому что, если аллель найден на очень низкой частоте, он, вероятно, будет представлять ошибку генотипирования.

В общем, вы можете вставить тщательный контроль качества следующего типа в вашей Plink команды:

--geno 0.03 --hwe 0.00001 --maf 0.00001 

(hwe только регулярная Харди-Вайнберга).

Смежные вопросы