У меня есть отсортированный список из 1000 000 строк с максимальной длиной 256 с именами белков. Каждая строка имеет связанный идентификатор. У меня есть еще один несортированный список из 4 000 000 000 строк с максимальной длиной 256 слов из слов, а каждое слово имеет идентификатор.Поиск большого списка слов в другом большом списке
Я хочу найти все совпадения между списком имен белков и списком слов из статей. Какой алгоритм я должен использовать? Должен ли я использовать некоторый API предварительной сборки?
Было бы хорошо, если бы алгоритм работал на обычном ПК без специального оборудования.
Оценки времени, требуемые алгоритмом, были бы хороши, но не обязательно.
Большинство алгоритмов поиска на дисковой памяти являются ужасающими по производительности. Поменяйте коллекции, чтобы вы могли выполнять поиск в памяти на белках и последовательно сканировать статьи. –