2016-10-29 5 views
4

У меня есть набор S строк, генерируемых секвенированием ДНК, с использованием конкретного фрагмента адаптера. Это означает, что все строки в S содержат суффикс, который приблизительно соответствует (из-за ошибок последовательности) префиксом последовательности адаптера. Как я могу, учитывая только набор S, вывести наиболее вероятную последовательность адаптеров, используемую для генерации S?Установить последовательность адаптеров из набора фрагментов

Набор S очень большой - примерно 1 миллион фрагментов, каждый из которых имеет длину 50 символов. Я знаю, что построение обобщенного дерева суффиксов над множеством S очень поможет в этой проблеме, но я не уверен в методе, который можно использовать для поиска наиболее вероятной последовательности адаптеров.

+0

Какие ошибки секвенирования может содержать строки? В частности, существуют ли только (или в основном) просто ошибки замены, могут ли быть вставки и/или удаления? –

+1

Ошибки ограничиваются просто ошибками замены. – Wims

+0

ключевыми словами являются «сборка blast de novo» GIYF – wildplasser

ответ

1

Может быть, это будет отвечать вашим потребностям:

http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0164228

+0

То, что мне нужно, большое спасибо! Логика в алгоритме также очень проста: Определите частые k-mers по множеству, отсортируйте их по частоте и выровняйте их в последовательность вывода. – Wims

Смежные вопросы