Мне нужно фильтровать поток текстовых статей, проверяя каждую запись для нечетких совпадений предопределенной строки (я искал имена продуктов с орфографическими ошибками, иногда они имеют разный порядок слов и лишних буквенных символов например «:» или «,»).Нечеткий поиск во время выполнения без использования базы данных index
Я получаю отличные результаты, помещая эти статьи в индекс sphinx и выполняя поиск по нему, но, к сожалению, я получаю сотни статей каждую секунду и обновляю индекс после того, как каждая статья слишком медленная (и я понимаю, что она не предназначена для таких задача). Мне нужна библиотека, которая может построить в памяти индекс малого ~ 100 КБ текста и выполнять нечеткий поиск на нем, что-то вроде этого существует?
Thx, это очень яркая идея, но, к сожалению, сейчас я не могу обучить фильтры и фильтрация AFAIK байесовский не будет хорошо работать в течение длительного (6-7 слов) строки поиска. – Riz
FAYK неверен. По-видимому, не только у вас нет времени на подготовку фильтров, но у вас нет времени на RTFWA. – msw
LOL, не поймите меня неправильно, я не имел в виду, что я слишком ленив, чтобы тренировать фильтры (или читать wikipedia), но количество этих фильтров может быть довольно большим (поэтому я не могу подготовить набор обученного фильтра для всех) и создание цикла «добавить фильтр - проверка - поезд - повторение» - не лучшее решение для моей задачи (конечные пользователи предпочтут получить неправильные результаты, а не тратят больше времени на учебные фильтры). Что касается длинных строк поиска, я могу ошибаться, это просто личный опыт использования фильтрации байесовского спама в моем почтовом клиенте :) – Riz