Вставка больших отсортированных файлов данных в БД

У меня есть большие (~ 100 ГБ) файлы, содержащие последовательности ДНК. Они упорядочены в первых двух столбцах. Например:Вставка больших отсортированных файлов данных в БД

chr position allele coverage otherStuff 
1 1000  A   10   ... 
1 1001  C   1   ... 
2  10  A   10   ... 
X 1000  G   3   ... 
Y 1000  A   13   ...

Я хотел бы, чтобы загрузить их в базу данных, так что я могу запросить их более эффективно (в настоящее время, я делаю полную проверку, чтобы найти определенную позицию, но так как она сортируется она должна быть возможно сделать это в O (log n)). Ранее я использовал «load data infile» MySQL, но если бы мне хотелось создать индекс в chr и position, он игнорирует тот факт, что данные уже отсортированы и отсортированы снова.

Есть ли способ обойти это? Могу ли я убедить MySQL (или любую другую БД, я не ограничен MySQL), что мои данные отсортированы?

Заранее благодарен!

источник

2012-01-30 Naviens

Даже если он сортирует его снова, она не должна быть такой проблемой, потому что она уже отсортирован. Самый лучший сценарий для сортировки mysql должен быть очень быстрым –

Для тех геномных позиций следует использовать биннинговые индекс, как описано Кентом & др. в http://genome.cshlp.org/content/12/6/996.full

смотри также http://genomewiki.ucsc.edu/index.php/Bin_indexing_system и http://biostar.stackexchange.com/questions/957/the-bin-column-used-by-sam-ucsc

источник

2012-01-31 07:36:17 Pierre

Вставка больших отсортированных файлов данных в БД

ответ

Смежные вопросы