Я хочу сканировать веб-сайты на основе сайтов, которые связаны с веб-страницей в HTML.Blacklists for Web-Crawler
Однако я беспокоюсь о том, чтобы в конечном итоге создать «не очень дружелюбные сайты». Кто-нибудь знает список сайтов черный список Я мог бы начать с реализации собственных фильтров, чтобы держаться подальше от (по крайней мере некоторых) шейдерных мест?
Спасибо!