2016-02-03 2 views
0

Предположим, есть сайт abc.com, и мы сканируем abc.com на 100 страниц, как показано ниже.Является ли Heritrix Crawl детерминированным?

День 1: создайте задачу обхода в heritrix, указав maxDocumentsToDownload как 100 День 2: клонируйте вышеуказанное задание в heritrix и запустите.

Если веб-сайт не меняется в течение двух дней, я получаю одинаковые 100 страниц или разные 100 страниц?

В случае, если требуется больше информации, пожалуйста, дайте мне знать

Спасибо, Hareesh

ответ

0

После клонирования работу на 2-й день он будет в основном скачать тот же набор страниц, если только веб-сайта (веб-страниц), обновляется , С другой стороны, во время выполнения задания Heritrix старается изо всех сил не сканировать одну и ту же страницу дважды. Потому что abc.com и abc.com/index могут указывать на тот же webp

+0

Hi Girish, Спасибо, что ответили. Было ли это документировано где-то в документации Herittrix, что не будет никакой разницы в просмотре страниц, если веб-сайт не изменится? – TechyHarry

+0

Нет, только что основанный на наблюдениях, я смог рассказать. –

Смежные вопросы