У меня в настоящее время возникают проблемы с нечеткой строкой, которую я реализовал. Я хочу иметь возможность быстро определить менее чем за одну секунду, какие фразы из списка из 10 000 фраз имеют расстояние редактирования 2 или менее до любой из 200 000 фраз в словаре, используя Javascript. Фразы в среднем около 15 символов. Меня не волнует, сколько матчей есть, или даже, что такое матч, просто ли матч или нет. Я могу сделать любую индексацию перед рукой по словам в словаре, который хотел бы, но ни один из других слов.levenshtein расстояние для индексированного словаря
Мой главный подход - использовать дерево BK. Для классификации всех 10 000 слов обычно требуется около 130-140 секунд, поэтому примерно на два порядка ниже, чем я надеюсь. Является ли реалистичным возможность классифицировать фразы, которые быстро появляются в Javascript? Если да, то какие методы я должен использовать, есть ли более быстрый метод, чем деревья BK, которые используются для таких проблем?
Вы пытались сделать это в WebWorker? – alex
Нет, я хотел бы получить результаты очень быстро, если это возможно. Я делаю это в node.js. – noel33