Я ищу способ быстро скопировать полный текст в миллион строк 1 килобайт.Быстрый поиск, не токенизация
Популярные способы ускорения такого рода вещей (Lucene или текстовый индекс в MongoDB), по-видимому, вызывают высокую производительность при поиске времени от разбиения строк содержимого на токены, которые они выполняют при построении индекса время. Эти жетоны основаны на словах естественного языка. Однако я хотел бы избежать этого вида токенизации, потому что я хочу искать строки, которые не имеют никакого отношения к словам естественного языка.
Я ищу что-то подобное по функциональности SQL «LIKE»% abc% '», но не только« abc ». Скажем, для строки, такой как «a.1», и соответствуют этому документу, например «.......... a.123 ........»
Я получаю впечатление, что теоретически это возможно с использованием suffix trees, но я не нашел соответствующей реализации Java. Под «подходящим» я подразумеваю тот, который не полагается на полное дерево суффикса, загружаемое в память сразу.
Это еще не придумано?
Возможно, вы захотите взглянуть на алгоритм [Boyer-Moore] (https://en.wikipedia.org/wiki/Boyer%E2%80%93Moore_string_search_algorithm). – fge