2009-10-04 2 views
3

Мне нужно запретить http://example.com/startup?page=2 поисковые страницы от индексации.Как запретить поисковые страницы от robots.txt

Я хочу, чтобы http://example.com/startup был проиндексирован, но не http://example.com/startup?page=2 и страница3 и так далее.

Кроме того, запуск может быть случайным, например, http://example.com/XXXXX?page

ответ

8

Что-то вроде это работает, как это было подтверждено функцией Google Webmaster Tools "тест robots.txt":

User-Agent: * 
Disallow: /startup?page= 

Disallow Значение это поле указывает частичный URL-адрес, который не должен быть посещен . Это может быть полный путь, или частичный путь; любой URL-адрес, начинающийся с , не будет получен.

Однако если первая часть URL изменится, вы должны использовать подстановочные знаки:

User-Agent: * 
Disallow: /startup?page= 
Disallow: *page= 
Disallow: *?page= 
3

Вы можете поставить это на страницах, которые вы не хотите индексировать:

<META NAME="ROBOTS" CONTENT="NONE"> 

Это говорит роботам, что они не индексируют страницу.

На странице поиска, это может быть более интересно использовать:

<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW"> 

Это инструктирует роботов не индексировать текущую страницу, но по-прежнему следуют ссылки на этой странице, что позволяет им, чтобы добраться до страницы найденных в поиске.

2
  1. Создайте текстовый файл и назовите его: robots.txt
  2. Добавить пользовательские агенты и запретить секции (см образец ниже)
  3. Поместите файл в корневом каталоге вашего сайта

Пример:

############################### 
#My robots.txt file 
# 
User-agent: * 
# 
#list directories robots are not allowed to index 
# 
Disallow: /testing/ 
Disallow: /staging/ 
Disallow: /admin/ 
Disallow: /assets/ 
Disallow: /images/ 
# 
# 
#list specific files robots are not allowed to index 
# 
Disallow: /startup?page=2 
Disallow: /startup?page=3 
Disallow: /startup?page=3 
# 
# 
#End of robots.txt file 
# 
############################### 

Вот ссылка на Google, фактический robots.txt file

Вы можете получить полезную информацию о веб-мастера Google в разделе справки о blocking or removing pages using a robots.txt file

+0

спасибо за ответ, я забыл добавить еще одну деталь здесь запуска может быть случайным/XXXXX? Страница – pmarreddy

+0

Используя этот метод, вы должны чтобы вручную добавить все? page = (число), вы можете оставить эту часть в соответствии со спецификацией. –

Смежные вопросы