2013-08-24 2 views
2

Я пытаюсь разработать поисковую систему в свободное время, смоделированное после Google.Внедрение прямого индекса в google

Я использую оригинальный Google научно-исследовательскую работу, перечисленные здесь: http://infolab.stanford.edu/~backrub/google.html

Однако у меня возникли некоторые проблемы здесь. Чтобы быть точным, у меня возникла проблема с форвардным индексом.

В статье говорится:

Если документ содержит слова, которые попадают в определенный баррель, DocId записывается в ствол, а затем список wordID с hitlists, которые соответствуют этим словам.

Теперь в этой постановке есть две проблемы. Сначала кто решает, какие слова из огромной лексики попадают в «Прямые бочки»? Все они идут. Во-вторых, значение соответствующего слова. Означает ли это слова, которые действительно появляются в этом документе после предыдущего слова или что-то еще?

Я действительно новичок в Поисковых системах и буду очень признателен за любой полезный эксперт по информации, помогающий мне в этом. Если модераторы считают, что этот вопрос принадлежит другому сайту Stack Exchange, сделайте это.

ответ

0

Первый вопрос: Строковое значение каждого слова отображается в целое число (по хеш-функции). Это связано с тем, что целые числа гораздо проще обрабатывать, чем строки. Затем вы можете определить диапазоны (ведра или бункеры или что-то еще, что вы могли бы назвать их) над этими целыми значениями, например.

  • термин идентификаторы от 0 до 1000 => бен-1
  • термин идентификаторы 1001 до 2000 => бен-2 и так далее.

Второй вопрос: Контекстная информация обычно не используется. Слово - это просто термин, присутствующий в документе, например термины «the», «quick», «brown» и т. Д.

Поскольку вы сказали, что являетесь новичком в IR, хорошим способом начать было бы читать вводная книга для ИК, например книга Мэннинга и Шутце.

Смежные вопросы