Как гусеничном или паука в поисковой системе работаетКак работает паук в поисковой системе?
ответ
Как любой паук начать свое путешествие по Сети? Обычными отправными точками являются списки сильно используемых серверов и очень популярные страницы. Паук начнет с популярного сайта, индексируя слова на своих страницах и следуя каждой ссылке, найденной на сайте. Таким образом, система spidering быстро начинает путешествовать, распространяясь по наиболее широко используемым частям Сети.
В частности, необходимо, по крайней мере, некоторые из следующих компонентов:
- Конфигурация: Необходимо, чтобы сказать искателя, как, когда и где подключиться к документам; и как подключиться к базовой системе базы данных/индексирования.
- Разъем: Это приведет к созданию соединений с веб-страницей или диском или чем-либо еще.
- Память: Страницы, которые уже были посещены, должны быть известны сканеру. Обычно это хранится в индексе, но зависит от реализации и потребностей. Содержимое также хешируется для целей дедупликации и обновления.
- Parser/Converter: Нужно уметь понимать содержимое документа и извлекать метаданные. Преобразует извлеченные данные в формат, используемый базой данных.
- Индекс: Будут передавать данные и метаданные в базу данных/систему индексирования.
- Планировщик: Будет планировать трассы на гусеничном ходу. Возможно, потребуется одновременно обрабатывать большое количество запущенных сканеров и принять во внимание то, что в настоящее время выполняется.
- Алгоритм подключения: Когда анализатор находит ссылки на другие документы, необходимо проанализировать, когда, как и где должны быть сделаны следующие соединения. Кроме того, в некотором алгоритме индексирования учитываются графики соединений страниц, поэтому может потребоваться хранить и сортировать информацию, связанную с этим.
- Управление политикой: Некоторые сайты требуют, чтобы сканеры соблюдали определенные политики (например, robots.txt).
- Безопасность/Управление пользователями: Искателю может потребоваться войти в систему для доступа к данным.
- Компиляция/выполнение контента: Искателю может потребоваться выполнить определенные действия, чтобы иметь доступ к тому, что находится внутри, например, к апплетам/плагинам.
Сканеры должны быть эффективными при совместной работе с различными начальными точками, скоростью, использованием памяти и использованием большого количества потоков/процессов. I/O является ключевым.
Всемирная паутина - это в основном связанный ориентированный граф веб-документов, изображений, мультимедийных файлов и т. Д. Каждый узел графика является компонентом веб-страницы - например, веб-страница состоит из изображения, текста, видео и т. д., все они связаны. Образцы пересекают граф, используя первый поиск по Breadth, используя ссылки на веб-страницах.
- Искатель изначально начинается с одного (или более) семенных точек.
- Он просматривает веб-страницу и исследует ссылки на этой странице.
- Этот процесс продолжается до тех пор, пока не будет изучен весь график (для ограничения глубины поиска можно использовать некоторое предопределенное ограничение).
- 1. Помощь в поисковой системе
- 2. Ошибка в поисковой системе
- 3. Php Ошибка в поисковой системе
- 4. Поиск по поисковой системе
- 5. См. Страницу в поисковой системе
- 6. Базисные слова в поисковой системе
- 7. Управление кешем в поисковой системе
- 8. Как получить результаты поиска в поисковой системе?
- 9. Как дать интервалы поисковой системе в Android
- 10. Как установить кодировку в поисковой системе Intellij?
- 11. Как индексировать приложение Silverlight в поисковой системе?
- 12. как поставить проверку орфографии в поисковой системе?
- 13. В какой поисковой системе используется mongodb?
- 14. Увеличение формы поиска в поисковой системе navbar
- 15. Кодировка нескольких языков в поисковой системе
- 16. Setfocus к поисковой системе в tlistview
- 17. Регулярные выражения в поисковой системе Sphider PHP
- 18. показать URL-адрес в поисковой системе android
- 19. Поиск apostrophe в поисковой системе solr
- 20. Добавление пользовательского поля в поисковой системе Google
- 21. Нечеткий матч в поисковой системе sharepoint?
- 22. spinner загрузка в поисковой системе youtube
- 23. Изменения в поисковой системе Android Searchbar
- 24. Использование LDA в поисковой системе Galago
- 25. Несколько ключевых слов в поисковой системе здания
- 26. Ошибка в поисковой системе PHP & Mysql
- 27. Показаны несколько результатов в поисковой системе
- 28. Метатеги не показаны в поисковой системе
- 29. Scrapy паук не работает
- 30. Не работает Scrapy паук
http://ru.wikipedia.org/wiki/Web_crawler – SilentGhost