2011-12-22 3 views
1

Я хочу предотвратить сбор данных на моем сайте (за исключением googlebot, конечно). Я предполагаю, что полагаться на UserAgent GB не достаточно силен (каждый бот может подделать его)Как проверить GoogleBot

Как я могу еще аутентифицировать GoogleBot, чтобы избежать подделок.

ответ

2

Официальный способ заключается в использовании комбинации прямого и обратного DNS-поиска; они не могут это подделать!

Более подробная информация находится здесь с веб-мастеров блоге Google: How to verify Googlebot

Рассказывая вебмастерам использовать DNS для проверки на индивидуальной основе случая кажется как самый лучший путь. Я думаю, что рекомендованная методика должна была бы выполнить обратный поиск DNS, убедитесь, что это имя находится в домене googlebot.com , а затем выполните соответствующий переадресации DNS-> IP, используя это имя googlebot.com; например:

> host 66.249.66.1 
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com. 

> host crawl-66-249-66-1.googlebot.com 
crawl-66-249-66-1.googlebot.com has address 66.249.66.1 

Я не думаю, что просто делает обратный DNS поиск достаточно, потому что спуфер может настроить обратный DNS, чтобы указать на crawl-a-b-c-d.googlebot.com.

Однако я рекомендую кэшировать результаты этого поиска по каждому IP-адресу и выполнять его только периодически, чтобы не вводить слишком много накладных расходов в процессе проверки.

1

Существует a post on the official Google Webmaster Blog, в котором объясняется «официальный способ аутентификации робота Google».

Передача веб-мастерам, использующим DNS для проверки в каждом конкретном случае, кажется лучшим способом. Я думаю, что рекомендуемым методом было бы сделать обратный поиск DNS, проверить, что имя находится в домене googlebot.com, а затем выполнить соответствующий переадресации DNS-> IP, используя это имя googlebot.com; например:

>host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

>host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1

Я не думаю, что просто делает обратный DNS поиск достаточно, потому что спуфер может настроить обратный DNS, чтобы указать на crawl-a-b-c-d.googlebot.com ,

0

Наша компания (Incapsula) недавно провела исследование активности робота Googlebot, которое показало в среднем 21% попыток впечатления от Googlebot. (75% из них были непосредственно вреден)

http://www.incapsula.com/the-incapsula-blog/item/369-was-that-really-a-google-bot-crawling-my-site

Сказав, что, уязвимость продолжает существовать только из-за небрежности как вышеупомянутый способ проверки составляет 100% полное доказательство.

1

Google Использование бот следующие диапазоны -

203.208.60.0/24, 66.249.64.0/20, 2001: 4860: 4801: 2: 6b00: 6006: 1300: b075, 2001: 4860: 4801: 5: 1000: 6006: 1300: b075, 2001: 4860: 4801: 6: e300: 6006: 1300: b075, 2001: 4860: 4801: 2001 :: 6006: 1300: b075, 2001: 4860: 4801: 2002 :: 6006: 1300: b075

Bing Bot IP диапазоны -

65.52.104.0/ 24, 65.52.108.0/22, 65.55.24.0/24, 65.55.52.0/24, 65.55.55.0/24, 65.55.213.0/24, 131.253.24.0/22, 131.253.46.0/23, 157.55.16.0/23, 157.55.18.0/24, 157.55.32.0/22, 157.55.36.0/24, 157.55.48.0/24, 157.55.109.0/24, 157.55.110.40/29, 157.55.110.48/28, 157.56.92.0/24, 157.56. 93.0/24, 157.56.94.0/23, 157.56.229.0/24, 199.30.16.0/24, 207.46.12.0/23, 207.46.192.0/24, 207.46.195.0/24, 207.46.199.0/24, 207.46.204.0/ 24

Используйте ссылку ниже для получения дополнительной информации -

http://myip.ms/info/bots/Google_Bing_Yahoo_Facebook_etc_Bot_IP_Addresses.html

.