2013-04-13 7 views
0

Я задавался вопросом, есть ли правило для выбора базовых слов в поисковой системе при создании инвертированного индекса. Я знаю, что вообще слова остановки не будут индексироваться. Но как насчет других? Я смущен ... Спасибо заранее.Базисные слова в поисковой системе

ответ

0

Вы имеете в виду stemming? Некоторые поисковые системы используют это. Это означает, что все слова усечены, поэтому walk, walks, walked и walking будут проиндексированы как walk. То же самое применяется к запросам перед запуском поиска. Это приводит к большему количеству просмотров, так как поиск walking in the woods также будет «walk in the woods».

+0

Не только стебли. Я имею в виду, что мы не можем индексировать каждое слово в Интернете, потому что оно слишком велико, не так ли? Итак, какие слова должны быть проиндексированы и которые следует игнорировать? Существует ли общее правило? – ray6080

+0

Поиск модулей * do * index _every_ word в каждом документе, который они переваривают. Существуют методы сжатия для уменьшения необходимого объема жесткого диска, однако эти двоичные индексы быстро растут. Я думаю, что каждый оператор поисковой системы имеет свои собственные правила для некоторых исключений. Например, если бы мне пришлось самостоятельно разработать поисковую систему, я бы исключил строки, которые никогда не появляются более чем один раз из документов, читающих OCR, но это было бы только моим собственным решением. Я также знаю поисковую систему, которая только индексирует слова, которые являются частью грамматически правильных предложений. Но не существует общего правила. – Paramaeleon

+0

Я вижу ... Спасибо. – ray6080

Смежные вопросы