Может ли кто-нибудь объяснить мне простую поисковую систему?Объясните простую поисковую систему
Как это должно выглядеть, какие компоненты должны иметь и как они работают?
Существует веб-искатель, есть индексирование и запрос, что я знаю. Какая его часть наиболее сложна?
Где использовать алгоритм pagerank - при сканировании? или в запросе, то есть показывая результаты? Что такое индексирование?
Я читал материал, но это немного сложно.
Что бы я хотел сделать, так это создать простую поисковую систему java. Не имеет значения, какой алгоритм будет использоваться, у меня есть первый шаг до сих пор, я думаю, что это самый простой алгоритм. У меня есть простой веб-искатель, я ввожу URL-адрес семпла и предел поиска страниц. Во-первых, поисковая система проверяет ссылку, robots.txt, и если она может загружать первую страницу, извлеките URL-адреса со страницы и добавьте их в список. Когда crawler заканчивает извлечение urls с первой страницы, он берет первый url в списке и извлекает ссылки и так далее.
Как насчет индексации?
Я действительно не понимаю эту часть. Если я хочу полностраничный индексирование, как мне это сделать? Просто добавьте полный текст загруженной страницы в базу данных?
Индексирование - моя самая важная часть, чтобы сделать это, пожалуйста, объясните эту часть.
Thanx заранее!
Когда вы googled «полнотекстовое индексирование», что вы нашли? На этом, как правило, много статей. Какие из них вы прочитали? Какая часть вас путала? –
Также, насколько большой ваш жесткий диск? –
Mr Lister - Мне кажется, мне не нужен большой hdd, потому что мне нужно сканировать только страницы внутри одного (не очень большого) домена. – woopata