2014-02-12 3 views
0

Мне не удалось найти информацию о моем случае. Я хочу, чтобы ограничить следующие типы URL-адреса, которые будут индексироваться:Ограничения URL-адреса Robots.txt

website.com/video-title/video-title/

(мой сайт производит такую ​​двойная URL копию моих видео-статьи)

Каждая видео статья начинается со слова «видео» в начале его URL-адреса.

Так что я хочу сделать, это ограничить все URL-адреса, которые имеют website.com/"any-url"/video-any-url»

Таким образом, я удалю все удвоенные копии. Может кто-нибудь помочь мне

ответ

0

Это не возможно в оригинальной спецификации robots.txt

Но некоторые парсеры могут поддерживать групповые символы в Disallow во всяком случае, к примеру, Google:?.

Googlebot (но не все поисковые системы) уважают некоторые соответствия шаблонов.

Так что для ботов Google, вы можете использовать следующую строку:

Disallow: /*/video 

Это должно блокировать любые URL, чьи пути начинается с чем-либо, и содержит «видео», например:

  • /foo/video
  • /foo/videos
  • /foo/video.html
  • /foo/video/bar
  • /foo/bar/videos
  • /foo/bar/foo/bar/videos

Другие парсеры не поддерживает это будет интерпретировать его буквально, то есть, они будут блокировать следующие ссылки:

  • /*/video
  • /*/videos
  • /*/video/foo