Я задавался вопросом, есть ли правило для выбора базовых слов в поисковой системе при создании инвертированного индекса. Я знаю, что вообще слова остановки не будут индексироваться. Но как насчет других? Я смущен ... Спасибо заранее.Базисные слова в поисковой системе
0
A
ответ
0
Вы имеете в виду stemming? Некоторые поисковые системы используют это. Это означает, что все слова усечены, поэтому walk
, walks
, walked
и walking
будут проиндексированы как walk
. То же самое применяется к запросам перед запуском поиска. Это приводит к большему количеству просмотров, так как поиск walking in the woods
также будет «walk in the woods
».
Смежные вопросы
- 1. Помощь в поисковой системе
- 2. Ошибка в поисковой системе
- 3. Php Ошибка в поисковой системе
- 4. Как получить ключевые слова, используемые в поисковой системе
- 5. Добавить оценку для каждого слова в поисковой системе
- 6. Поиск по поисковой системе
- 7. Несколько ключевых слов в поисковой системе здания
- 8. См. Страницу в поисковой системе
- 9. Управление кешем в поисковой системе
- 10. Кодировка нескольких языков в поисковой системе
- 11. показать URL-адрес в поисковой системе android
- 12. Увеличение формы поиска в поисковой системе navbar
- 13. Использование LDA в поисковой системе Galago
- 14. spinner загрузка в поисковой системе youtube
- 15. Нечеткий матч в поисковой системе sharepoint?
- 16. Как получить результаты поиска в поисковой системе?
- 17. Setfocus к поисковой системе в tlistview
- 18. Поиск apostrophe в поисковой системе solr
- 19. Ошибка в поисковой системе PHP & Mysql
- 20. Как работает паук в поисковой системе?
- 21. Как дать интервалы поисковой системе в Android
- 22. Регулярные выражения в поисковой системе Sphider PHP
- 23. Показаны несколько результатов в поисковой системе
- 24. Как установить кодировку в поисковой системе Intellij?
- 25. Изменения в поисковой системе Android Searchbar
- 26. Как индексировать приложение Silverlight в поисковой системе?
- 27. Добавление пользовательского поля в поисковой системе Google
- 28. В какой поисковой системе используется mongodb?
- 29. Метатеги не показаны в поисковой системе
- 30. как поставить проверку орфографии в поисковой системе?
Не только стебли. Я имею в виду, что мы не можем индексировать каждое слово в Интернете, потому что оно слишком велико, не так ли? Итак, какие слова должны быть проиндексированы и которые следует игнорировать? Существует ли общее правило? – ray6080
Поиск модулей * do * index _every_ word в каждом документе, который они переваривают. Существуют методы сжатия для уменьшения необходимого объема жесткого диска, однако эти двоичные индексы быстро растут. Я думаю, что каждый оператор поисковой системы имеет свои собственные правила для некоторых исключений. Например, если бы мне пришлось самостоятельно разработать поисковую систему, я бы исключил строки, которые никогда не появляются более чем один раз из документов, читающих OCR, но это было бы только моим собственным решением. Я также знаю поисковую систему, которая только индексирует слова, которые являются частью грамматически правильных предложений. Но не существует общего правила. – Paramaeleon
Я вижу ... Спасибо. – ray6080