2015-03-20 5 views
1

У меня есть файлы последовательности ДНК, и многие последовательности начинаются как «CCCATGCAGACATATAGTG» или «CTCCATGCAGACATATAGTG», и у меня есть последовательность тегов, которая является «ATGCA». Я хочу удалить все «ATGCA», а также «CC» и «CTC». Таким образом, конечным продуктом будет «GACATAGTG».Последовательность последовательности Trim, использующая R

Кто-нибудь знает, что любая функция R может это сделать? Я попробовал trimLRPatterns в biostrings, но он не работает, поскольку он только обрезается с конца, но не внутри последовательности. Пожалуйста, дайте мне знать, если у вас есть какое-либо решение. Благодарю.

ответ

0

Вы можете использовать gsub. Например.

GSUB ("ATGCA", "", "CCCATGCAGACATAGTG")

1

Попробуйте это:

# dummy DNA 
myDNA <- c("CCCATGCAGACATAGTG","CTCCATGCAGACATAGTG") 
# define tag 
tag <- "ATGCA" 

# remove any character(s) before tag, including tag. 
gsub(paste0("^.*",tag),"",myDNA) 

# output 
# [1] "GACATAGTG" "GACATAGTG" 
Смежные вопросы