2010-05-05 3 views

ответ

0

От How Stuff Works

Как любой паук начать свое путешествие по Сети? Обычными отправными точками являются списки сильно используемых серверов и очень популярные страницы. Паук начнет с популярного сайта, индексируя слова на своих страницах и следуя каждой ссылке, найденной на сайте. Таким образом, система spidering быстро начинает путешествовать, распространяясь по наиболее широко используемым частям Сети.

3

В частности, необходимо, по крайней мере, некоторые из следующих компонентов:

  • Конфигурация: Необходимо, чтобы сказать искателя, как, когда и где подключиться к документам; и как подключиться к базовой системе базы данных/индексирования.
  • Разъем: Это приведет к созданию соединений с веб-страницей или диском или чем-либо еще.
  • Память: Страницы, которые уже были посещены, должны быть известны сканеру. Обычно это хранится в индексе, но зависит от реализации и потребностей. Содержимое также хешируется для целей дедупликации и обновления.
  • Parser/Converter: Нужно уметь понимать содержимое документа и извлекать метаданные. Преобразует извлеченные данные в формат, используемый базой данных.
  • Индекс: Будут передавать данные и метаданные в базу данных/систему индексирования.
  • Планировщик: Будет планировать трассы на гусеничном ходу. Возможно, потребуется одновременно обрабатывать большое количество запущенных сканеров и принять во внимание то, что в настоящее время выполняется.
  • Алгоритм подключения: Когда анализатор находит ссылки на другие документы, необходимо проанализировать, когда, как и где должны быть сделаны следующие соединения. Кроме того, в некотором алгоритме индексирования учитываются графики соединений страниц, поэтому может потребоваться хранить и сортировать информацию, связанную с этим.
  • Управление политикой: Некоторые сайты требуют, чтобы сканеры соблюдали определенные политики (например, robots.txt).
  • Безопасность/Управление пользователями: Искателю может потребоваться войти в систему для доступа к данным.
  • Компиляция/выполнение контента: Искателю может потребоваться выполнить определенные действия, чтобы иметь доступ к тому, что находится внутри, например, к апплетам/плагинам.

Сканеры должны быть эффективными при совместной работе с различными начальными точками, скоростью, использованием памяти и использованием большого количества потоков/процессов. I/O является ключевым.

3

Всемирная паутина - это в основном связанный ориентированный граф веб-документов, изображений, мультимедийных файлов и т. Д. Каждый узел графика является компонентом веб-страницы - например, веб-страница состоит из изображения, текста, видео и т. д., все они связаны. Образцы пересекают граф, используя первый поиск по Breadth, используя ссылки на веб-страницах.

  1. Искатель изначально начинается с одного (или более) семенных точек.
  2. Он просматривает веб-страницу и исследует ссылки на этой странице.
  3. Этот процесс продолжается до тех пор, пока не будет изучен весь график (для ограничения глубины поиска можно использовать некоторое предопределенное ограничение).
Смежные вопросы