У меня есть загрузка последовательностей ДНК.как вывести строку определенной длины с использованием agrep в R
Я хочу, чтобы соответствовать части последовательности и я хочу вернуть матч до определенной длины
dataframe DF имеет столбцы:
V1 и V2
>chr1:61695-62229 aattccaagagtattattgcaccaaaaggcatggacttaaaattcttgatacatgatttcaaaatattttctttaaggtttgaatcagtctatattccctccagcagcgtataaaagtgccaatttctctgatccttagccagtttgggtaataataattgtaaaacttttttttctttttttttgagacagagtctccctctgtcgccaggctgaagtgcagtggcgcaatctcggctcactgcaacctccgcctcccggggtcaagctattctcctgcctcagcctcccaagtagctgggactacaggcatgcaccaccatgcccagctaatttttgttatttttagtagagatggagtttccccatgttggacaggatggtctcgatctcttgacctcgtgatccaccctcctcggcctcccaaagtgctgggataacaggcgtgaacaaccatgcccggcctgtaaaactttttcctaatttaacagaaaaataatagtattatattttatcatatttctttgatttcta
>chr1:101718-102194 taaaaataaatgtattaagtatgaacaacaaaaaagctagtaaaggttgaacaacaactatccttaggaaagtggaaataatgtattaataaatatgaaagcaggctagccacggtgactcacatctgtaatcccagcactttgggaggctgaggcaggcagatcacctgaggtcaggagttccagaccagcctggccaacatggtgaaatcttgtctctcctacaaatacaaaaactagccaggcttggttgtgcactcctgtaattcgagctacttgggaggctgaggcaggagaatctcttgaacctgagaggcagaggttgcagtgagccaagatcatgccactgcactccagctggggcaacagagtgacactccatctcaaaataaataaataagaaagcagaaactaataaactagaaaacagaaacatagaactaatttataaatcaaagcactatgccttgaaaaga
Я использовал agrep, чтобы получить матч.
RepeatAlusSequencesdfMatch <- RepeatAlusSequencesdf[agrep("aacctcaaagactggcctca", RepeatAlusSequencesdf[,2],ignore.case = TRUE, max.distance = 0.3), ]
, но я также хочу вернуть 146 символов с конца матча. На данный момент это дает мне целую последовательность, которую я не могу использовать
Вы не можете захватить группы в agrep, как вы делаете с grep. Вы не можете сказать «дайте мне подходящую подстроку». Вы говорите: «вот последовательность строк, найдите, какие из них соответствуют этому шаблону, используя наименьшее количество вставок, удалений или замещений», и алгоритм просто возвращает вам соответствующие строки. Их совпадение или несоответствие вычисляется по всей строке. – kliron