Я собираюсь создать индекс, который для каждого документа разбивает его на слово ngrams (uni, bi и tri), затем фиксирует векторный анализ на всех этих ngrams. Возможно ли это с помощью Elasticsearch?Многословные векторы вектора с Word nGrams?
Например, для поля документа, содержащего «Красные автомобильные приводы». Я мог бы получить информацию:
red - 1 instance
car - 1 instance
drives - 1 instance
red car - 1 instance
car drives - 1 instance
red car drives - 1 instance
Заранее благодарен!
Отличный ответ, только то, что я искал, спасибо. Немного подшучило, что Lucene 4.4 больше не поддерживает «enable_position_increments» и требует, чтобы вы возвращали символ наполнителя вместо того, чтобы просто игнорировать токены, содержащие стоп-слова, но я получаю логику этой проблемы. Для всех, кто ищет, почему новые версии Lucene не могут с этим справиться, https://issues.apache.org/jira/browse/LUCENE-4065 Спасибо! – ev0lution37