Я написал сканера для определенной веб-страницы. Этот сайт имеет robots.txt, который выглядит следующим образом:Является ли robots.txt crawl-delay также для подстраниц?
User-Agent: *
Crawl-delay: 30
Так это разрешается только сканировать сайт каждые 30 секунд (правда?). Но как насчет субстраниц? Например. можно сканировать следующие сайты без задержки на 30 секунд, потому что они разные подстраниц:
www.mysite.com
www.mysite.com/category_1
www.mysite.com/category_2
мне нужно сделать перерыв в 30 секунд между этими запросами делать?
Спасибо, Thomas.
Значит, это определенно о том же сервере, а не о той же странице? Это означает, что мне нужно сделать перерыв :( –
@ThomasUhrig: Да, это определенно о сервере. Вам обязательно нужно подождать между запросами. –
Хорошо, спасибо большое! –