Я ищу способ нечеткой функции substring
. Что я имею в виду:fuzzy .substring функция текстового сопоставления
- Даны две строки.
- Один из них часто длиннее другого. Назовем тогда «короткий» и «длинный»
- Мы хотим забить, сколько «коротких» появилось в «длинном».
- Мы хотим принять во внимание близость и другие. Подобно тому, как элементы «короткого» появляются в «длинном», они предпочитают появляться в одном порядке и близко друг к другу.
Пример 1:
- Короткие: «сорняки уничтожаются»
- Длинных: «Культур сконструированных с бактериальным геном изготовления растений, устойчивых к гербицидам, может расти в то время как сорняки будут уничтожены, и генетически модифицированные культуры, которые могут противостоять разрушительным насекомым, уменьшают потребность в химических инсектицидах ».
Это точное совпадение и должно иметь счет 1.0.
Пример 2:
- Короткие: "сорняки будут уничтожены"
- Длинные: То же самое, что и выше.
Это нечеткое совпадение, так как в тексте появляются «сорняки» и «уничтожены», но без «будет». Тем не менее он должен получить высокий балл (скажем 0,8).
Пример 3:
Если мы устанавливаем «Short» в «уничтожены будут сорняки», хотя «уничтожены» и «сорняки» оба появляются в оригинальном тексте, оценка должна быть очень низкой, так как их порядок изменился.
Любая предлагаемая реализация по этому вопросу?
Последнее, что нет единственного способа сделать это. Но я ищу алгоритм AN. Параметры этого алгоритма могут быть настроены на основе потребностей и требований.
Остановить слова, возможно, позаботиться о детерминантах и статьях. N-граммы могут пролить свет на грамматику. Мой прием. – arjun
A) это не вопрос scala. B) Конечно, он запрашивает «ресурс вне сайта» и так не в тему. C) Если это не так, это слишком широко! D) многие «связанные» вопросы справа, похоже, охватывают одно и то же место. –