У меня есть большие (~ 100 ГБ) файлы, содержащие последовательности ДНК. Они упорядочены в первых двух столбцах. Например:Вставка больших отсортированных файлов данных в БД
chr position allele coverage otherStuff
1 1000 A 10 ...
1 1001 C 1 ...
2 10 A 10 ...
X 1000 G 3 ...
Y 1000 A 13 ...
Я хотел бы, чтобы загрузить их в базу данных, так что я могу запросить их более эффективно (в настоящее время, я делаю полную проверку, чтобы найти определенную позицию, но так как она сортируется она должна быть возможно сделать это в O (log n)). Ранее я использовал «load data infile» MySQL, но если бы мне хотелось создать индекс в chr и position, он игнорирует тот факт, что данные уже отсортированы и отсортированы снова.
Есть ли способ обойти это? Могу ли я убедить MySQL (или любую другую БД, я не ограничен MySQL), что мои данные отсортированы?
Заранее благодарен!
Даже если он сортирует его снова, она не должна быть такой проблемой, потому что она уже отсортирован. Самый лучший сценарий для сортировки mysql должен быть очень быстрым –