2016-12-13 3 views
0

, как вы знаете, существует различная методика индексирования документов для поисковых систем. , такие как инвертированный индекс, распределенная динамическая индексация, семантическое индексирование, индексирование NGram, индексирование контекста, большие данные, многоязычное индексирование и т. Д. Я работаю с Solr сейчас. Интересно, какие методы использует Solr для индексации документов и как Solr (или Lucene) используют эти методы?Какие методы использует Solr для индексирования файлов?

ответ

1

Первый - это очень широкая область, и большинство терминов, которые вы указываете, не являются типами индексов. Они описывают функции продукта (или ключевые слова), которые могут поддерживаться независимо от того, как индекс создается за сценой.

Solr использует Lucene - который в основе является инвертированным индексом.

В индексе хранится статистика об условиях, чтобы сделать поиск по срокам более эффективным. Индекс Lucene попадает в семейство индексов, известных как инвертированный индекс. Это потому, что он может перечислить на срок документы, которые его содержат. Это обратная связь между естественными отношениями, в которых перечислены термины документов.

Существует также множество структур поддержки, чтобы сделать Lucene еще более эффективным для определенных запросов и функций. По такой функции есть DocValues support - который можно охарактеризовать как хранилище с ориентированным столбцом с документами -> терминальными сопоставлениями, чтобы ускорить такие вещи, как огранка.

Вы можете увидеть большинство этих функций поддержки в Codecs API Doc for Lucene 6.3.0. Поскольку это довольно большой список, я оставлю это из самого комментария.

1

Чтобы ответить , какие методы - под капотом, Solr использует Lucene API, и Lucene метод индексации - Перевернутый индексирование. Solr - это просто приложение с инфраструктурной оболочкой, но базовая методика индексирования документов - это тот, который предоставляется API Lucene.

Как Solr (или Lucene) используют эти методы?

Here - хороший обзор индексации Lucene для начинающих. Его просто очень упрощенный обзор, но объясняет основы.

Поскольку Solr является продуктом, большинство его доступных документов являются функциональными (не объясняя фактические методы индексирования и т. Д.), И поскольку необработанное использование Lucene минимально, документация Lucene не соответствует значению, поэтому большую часть времени один необходимо копать код Lucene или документацию API, чтобы понять работу Lucene.

Надеюсь, это поможет!

Смежные вопросы