2010-11-30 2 views
10

Каковы некоторые структуры данных, которые должны быть известны кому-то, участвующим в биоинформатике? Я предполагаю, что кто-то должен знать о списках, хэшах, сбалансированных деревьях и т. Д., Но я ожидаю, что существуют структуры данных, специфичные для домена. Есть ли какая-нибудь книга, посвященная этой теме?Структуры данных для биоинформатики

ответ

6

Наиболее фундаментальной структурой данных, используемой в биоинформатике, является строка. Существует также целый ряд различных структур данных, представляющих строки. А алгоритмы, такие как сопоставление строк, основаны на эффективных структурах представления/данных.

Всеобъемлющий работа на это Algorithms on Strings, Trees and Sequences

+0

Согласен. Книга Гусфилда очень обширна. – awesomo 2010-11-30 07:59:06

4

Много Дэн Gusfield о вводных книг по биоинформатике будут рассмотрены некоторые из основных структур, вы бы использовать. Я не уверен, что такое стандартный учебник, но я уверен, что вы можете это найти. Это может быть полезно посмотреть на некоторые из конкретных языков книг по:

Я выбрал те два в качестве примера, потому что они опубликованы O'Reilly, который, по моему опыту, публикует книги хорошего качества.

У меня просто есть книга Python на моем жестком диске, и многое из этого говорит о обработке строк для биоинформатики с использованием Python. Похоже, что биоинформатика использует любые необычные специальные структуры данных, только существующие.

2

Многие проекты в области биоинформатики предполагают объединение информации из разных полуструктурированных источников. RDF и онтологии необходимы для большей части этого. См., Например, проект bio2RDF. http://bio2rdf.org/. Хорошее понимание идентификаторов ценно.

Большая биоинформатика - это поисковые и быстрые легкие инструменты, которые часто используются. См. Инструменты рабочего процесса, такие как Taverna, где основным ресурсом часто является набор веб-сервисов, поэтому HTTP/REST являются общими.

3

Пространственные хеширующие структуры данных (kd-tree), например, часто используются для запросов ближайшего соседа для векторов любых признаков, а также для анализа структуры трехмерного белка.

Лучшая книга для вашего $$ - Understanding Bioinformatics by Zvelebil, потому что она охватывает все: от анализа последовательности до сравнения структуры.

3

Я также настоятельно рекомендую эту книгу, http://www.comp.nus.edu.sg/~ksung/algo_in_bioinfo/

И еще недавно, питон гораздо чаще используется в биоинформатике, чем Perl. Поэтому я действительно предлагаю вам начать с python, он широко используется в моих проектах.

1

Независимо от ваших математических или вычислительных знаний, вы, скорее всего, найдете приложение в вычислительной биологии.Если нет, сделайте еще один вопрос о stackoverflow, и вам помогут: o)

Как уже упоминалось в других ответах, несколько вневременных - это сравнение строк и обнаружение паттерна в одномерных данных, так как последовательности так легко получить. С новым интересом к медицинской информатике, хотя у вас также есть двух/трехмерный анализ изображения, который вы запускаете, например. против геномных данных. С молекулярной биохимией вы также имеете поиск образцов на трехмерных поверхностях и молекулярное моделирование. Чтобы изучить эффекты лекарств, вы будете работать с генными сетями и сравнить их с тканями. Типичные проблемы для большой интеграции данных и информации. И тогда вам понадобятся статистические описания вероятности шаблона или клинической ассоциации любых признаков, обнаруженных случайно.

Смежные вопросы