У меня есть набор S строк, генерируемых секвенированием ДНК, с использованием конкретного фрагмента адаптера. Это означает, что все строки в S содержат суффикс, который приблизительно соответствует (из-за ошибок последовательности) префиксом последовательности адаптера. Как я могу, учитывая только набор S, вывести наиболее вероятную последовательность адаптеров, используемую для генерации S?Установить последовательность адаптеров из набора фрагментов
Набор S очень большой - примерно 1 миллион фрагментов, каждый из которых имеет длину 50 символов. Я знаю, что построение обобщенного дерева суффиксов над множеством S очень поможет в этой проблеме, но я не уверен в методе, который можно использовать для поиска наиболее вероятной последовательности адаптеров.
Какие ошибки секвенирования может содержать строки? В частности, существуют ли только (или в основном) просто ошибки замены, могут ли быть вставки и/или удаления? –
Ошибки ограничиваются просто ошибками замены. – Wims
ключевыми словами являются «сборка blast de novo» GIYF – wildplasser