2015-12-15 2 views
0

Я хочу сканировать веб-сайты на основе сайтов, которые связаны с веб-страницей в HTML.Blacklists for Web-Crawler

Однако я беспокоюсь о том, чтобы в конечном итоге создать «не очень дружелюбные сайты». Кто-нибудь знает список сайтов черный список Я мог бы начать с реализации собственных фильтров, чтобы держаться подальше от (по крайней мере некоторых) шейдерных мест?

Спасибо!

ответ

0

Немного другой подход заключается в использовании opendns familyshied и настройке DNS на сервере (серверах), на котором запущен ваш искатель. Тогда у вашего искателя может быть специальный фильтр для обнаружения страниц, отфильтрованных opendns, и предотвращения их индексации или хранения.

Вам не придется обрабатывать черные списки и управлять ими, а opendns делать это вместо вас.

3

Очень хороший источник хорошо сохранившихся черных списков для разных жанров предоставляется университетом Тулузы. Вы можете найти их here.

Другим подходом было бы использовать сфокусированный искатель и позволить классификатору решить, следует ли сканировать определенную страницу или нет в интересующей вас области.

Смежные вопросы