0

Я не специалист по биоинформатике. Я хочу выровнять две нуклеотидные последовательности, используя глобальный метод выравнивания. Каждая последовательность представляет собой комбинацию букв {A, C, T, G}.Как оценить схему подсчета баллов в парном выравнивании

Проблема в том, что я не знаю, как выбрать наилучшую схему подсчета очков (подстанции и штрафные санкции).

В настоящее время я использую значения + 1, -1, -2 для соответствия, несоответствия и штрафа за пробел. И я это знаю; число переходов в ДНК человека больше, чем количество трансверсий.

Мой вопрос заключается в том, как оценить штрафы за (совпадение, несоответствие и разрыв) на основе моего набора данных. Может ли какая-нибудь статистическая модель помочь?

ответ

0

Если нам нужно ответить на этот вопрос, нам нужно точно знать набор данных и область видимости, но в целом для соответствия/несоответствия мы можем представить как + 1/-1, это не включает (преобразование и переход).

Для Я советую вам взглянуть на эту model и Kimura

Наконец для казни, вы можете использовать «низкий, средний и высокий» штраф в соответствии с расходящимися последовательности, я имею в виду Если организмы является тесно связанные, тогда вы можете использовать штраф за низкий разрыв и высокий штраф за более расходящиеся организмы, поэтому штраф за разрыв зависит от того, насколько расходящиеся последовательности вы выравниваете.

Если нам нужно знать, если последовательность расходится или нет, как я уже сказал, что это зависит и отличаются в зависимости от ваших данных, но вы можете посмотреть на этих примерах о некоторых последовательностях: link1, link2, link3, link4, и link5

+0

Спасибо за ответ. но что вы имеете в виду «расходящиеся последовательности» и как мы можем это вычислить? – Omar14

+0

Я обновил ответ, пожалуйста, проверьте –

+0

Спасибо, я имел в виду, как мы вычисляем расходящиеся последовательности? статистически? – Omar14

Смежные вопросы