2012-02-08 14 views
-1

Может ли кто-нибудь объяснить мне простую поисковую систему?Объясните простую поисковую систему

Как это должно выглядеть, какие компоненты должны иметь и как они работают?

Существует веб-искатель, есть индексирование и запрос, что я знаю. Какая его часть наиболее сложна?

Где использовать алгоритм pagerank - при сканировании? или в запросе, то есть показывая результаты? Что такое индексирование?

Я читал материал, но это немного сложно.

Что бы я хотел сделать, так это создать простую поисковую систему java. Не имеет значения, какой алгоритм будет использоваться, у меня есть первый шаг до сих пор, я думаю, что это самый простой алгоритм. У меня есть простой веб-искатель, я ввожу URL-адрес семпла и предел поиска страниц. Во-первых, поисковая система проверяет ссылку, robots.txt, и если она может загружать первую страницу, извлеките URL-адреса со страницы и добавьте их в список. Когда crawler заканчивает извлечение urls с первой страницы, он берет первый url в списке и извлекает ссылки и так далее.

Как насчет индексации?

Я действительно не понимаю эту часть. Если я хочу полностраничный индексирование, как мне это сделать? Просто добавьте полный текст загруженной страницы в базу данных?

Индексирование - моя самая важная часть, чтобы сделать это, пожалуйста, объясните эту часть.

Thanx заранее!

+0

Когда вы googled «полнотекстовое индексирование», что вы нашли? На этом, как правило, много статей. Какие из них вы прочитали? Какая часть вас путала? –

+0

Также, насколько большой ваш жесткий диск? –

+0

Mr Lister - Мне кажется, мне не нужен большой hdd, потому что мне нужно сканировать только страницы внутри одного (не очень большого) домена. – woopata

ответ

0

В книге Algorithms of the Intelligent Web есть отличное введение в алгоритм PageRank и хорошая прогулка по его реализации. Я предлагаю вам получить копию этого и работать через главу 2, чтобы получить хорошее представление об этом пространстве.

Смежные вопросы