, как вы знаете, существует различная методика индексирования документов для поисковых систем. , такие как инвертированный индекс, распределенная динамическая индексация, семантическое индексирование, индексирование NGram, индексирование контекста, большие данные, многоязычное индексирование и т. Д. Я работаю с Solr сейчас. Интересно, какие методы использует Solr для индексации документов и как Solr (или Lucene) используют эти методы?Какие методы использует Solr для индексирования файлов?
ответ
Первый - это очень широкая область, и большинство терминов, которые вы указываете, не являются типами индексов. Они описывают функции продукта (или ключевые слова), которые могут поддерживаться независимо от того, как индекс создается за сценой.
Solr использует Lucene - который в основе является инвертированным индексом.
В индексе хранится статистика об условиях, чтобы сделать поиск по срокам более эффективным. Индекс Lucene попадает в семейство индексов, известных как инвертированный индекс. Это потому, что он может перечислить на срок документы, которые его содержат. Это обратная связь между естественными отношениями, в которых перечислены термины документов.
Существует также множество структур поддержки, чтобы сделать Lucene еще более эффективным для определенных запросов и функций. По такой функции есть DocValues support - который можно охарактеризовать как хранилище с ориентированным столбцом с документами -> терминальными сопоставлениями, чтобы ускорить такие вещи, как огранка.
Вы можете увидеть большинство этих функций поддержки в Codecs API Doc for Lucene 6.3.0. Поскольку это довольно большой список, я оставлю это из самого комментария.
Чтобы ответить , какие методы - под капотом, Solr использует Lucene API, и Lucene метод индексации - Перевернутый индексирование. Solr - это просто приложение с инфраструктурной оболочкой, но базовая методика индексирования документов - это тот, который предоставляется API Lucene.
Как Solr (или Lucene) используют эти методы?
Here - хороший обзор индексации Lucene для начинающих. Его просто очень упрощенный обзор, но объясняет основы.
Поскольку Solr является продуктом, большинство его доступных документов являются функциональными (не объясняя фактические методы индексирования и т. Д.), И поскольку необработанное использование Lucene минимально, документация Lucene не соответствует значению, поэтому большую часть времени один необходимо копать код Lucene или документацию API, чтобы понять работу Lucene.
Надеюсь, это поможет!
- 1. Поддержка индексирования Solr для файлов NetCDF?
- 2. Solr для индексирования файлов журнала приложений
- 3. Установить поле Solr для индексирования
- 4. Конфигурировать Nutch только для индексирования определенных типов файлов в Solr
- 5. Подход индексирования Solr
- 6. Требование проектирования индексирования Solr
- 7. Ошибка индексирования Solr
- 8. Какие методы доступны для хранения последовательных файлов?
- 9. Настройка приложения SOLR для индексирования pdf-документов
- 10. Загрузить файлы в drupal для индексирования в solr
- 11. Данные индексирования в Solr для поиска
- 12. Использование solr для индексирования данных разных типов
- 13. Используйте Solr для индексирования/поиска содержимого txt
- 14. время индексирования (продолжительность) в solr
- 15. Solr - LukeRequestHandler - Требуется статус индексирования
- 16. Solr: индексирование fb2 файлов
- 17. Структура индексирования Solr с MySQL
- 18. Apache Solr данные индексирования SQL
- 19. Время индексирования Solr vs performace
- 20. Использование индексирования трейдинга в Solr
- 21. Какие расширения файлов поддерживает Apache solr 6.1?
- 22. Какие методы используются для перемещения файлов с помощью java?
- 23. Любая функция индексирования фразы в solr
- 24. Solr - Ошибка индексирования с символами UTF-8
- 25. Как настроить Solr для индексирования один раз в день
- 26. Свойства файлов индексирования
- 27. Каков наилучший способ индексирования ~ 1TB richtext douments в Solr?
- 28. Какие методы доступны для просмотра файлов на iPhone?
- 29. Solr использует слишком много памяти
- 30. Как загрузить папку файлов SOLR