Например, в случае обхода StackOverflow, то имеет смысл задержки на основании имени хоста доменного имени/(например, послать запрос stackoverflow.com каждые 10 минут)задержка Crawl на основе IP-адреса против имени хоста против имени домена
В случае с * .blogspot.com имеет смысл только откладывать запросы на основе имени домена, так как есть миллионы имен хостов, заканчивающиеся на .blogspot.com, и задержки на основе этого будут наводнять сервер миллионами запросов.
При сканировании широкого спектра веб-сайтов (сканирование веб-масштаба), какова наилучшая практика с точки зрения установления задержек между запросами? Должен ли я откладывать запросы на основе IP-адреса, имени хоста или имени домена?
Почему бы не почитать задержка прокрутки в файле robots.txt (если установлен)? –
@RowlandShaw сканер, подобный Nutch, будет извлекаться в распределенном режиме и с несколькими потоками на узел. Если искатель группирует URL-адреса на один домен, вы можете запустить a.x.com и b.x.com в отдельных потоках - каждый поток будет проверять файл robots.txt отдельно, а настройки вежливости не будут полностью соблюдены. –