Я пытаюсь разработать поисковую систему в свободное время, смоделированное после Google.Внедрение прямого индекса в google
Я использую оригинальный Google научно-исследовательскую работу, перечисленные здесь: http://infolab.stanford.edu/~backrub/google.html
Однако у меня возникли некоторые проблемы здесь. Чтобы быть точным, у меня возникла проблема с форвардным индексом.
В статье говорится:
Если документ содержит слова, которые попадают в определенный баррель, DocId записывается в ствол, а затем список wordID с hitlists, которые соответствуют этим словам.
Теперь в этой постановке есть две проблемы. Сначала кто решает, какие слова из огромной лексики попадают в «Прямые бочки»? Все они идут. Во-вторых, значение соответствующего слова. Означает ли это слова, которые действительно появляются в этом документе после предыдущего слова или что-то еще?
Я действительно новичок в Поисковых системах и буду очень признателен за любой полезный эксперт по информации, помогающий мне в этом. Если модераторы считают, что этот вопрос принадлежит другому сайту Stack Exchange, сделайте это.