2012-01-30 4 views
1

У меня есть большие (~ 100 ГБ) файлы, содержащие последовательности ДНК. Они упорядочены в первых двух столбцах. Например:Вставка больших отсортированных файлов данных в БД

chr position allele coverage otherStuff 
1 1000  A   10   ... 
1 1001  C   1   ... 
2  10  A   10   ... 
X 1000  G   3   ... 
Y 1000  A   13   ... 

Я хотел бы, чтобы загрузить их в базу данных, так что я могу запросить их более эффективно (в настоящее время, я делаю полную проверку, чтобы найти определенную позицию, но так как она сортируется она должна быть возможно сделать это в O (log n)). Ранее я использовал «load data infile» MySQL, но если бы мне хотелось создать индекс в chr и position, он игнорирует тот факт, что данные уже отсортированы и отсортированы снова.

Есть ли способ обойти это? Могу ли я убедить MySQL (или любую другую БД, я не ограничен MySQL), что мои данные отсортированы?

Заранее благодарен!

+0

Даже если он сортирует его снова, она не должна быть такой проблемой, потому что она уже отсортирован. Самый лучший сценарий для сортировки mysql должен быть очень быстрым –

ответ

Смежные вопросы