2013-06-06 6 views
1

У меня есть сайт http://www.example.com.Запретить сканирование сайта CDN

JS/CSS/Изображения подаются с CDN - http://xxxx.cloudfront.net OR http://cdn.example.com; они оба одинаковы. Теперь CDN просто обслуживает любой тип файла, включая мои PHP-страницы. Google каким-то образом просканировал этот сайт CDN; два сайта - от cdn.example.com И от http://xxxx.cloudfront.net. С учетом

  1. Я НЕ пытаюсь настроить субдомен ИЛИ зеркальный сайт. Если это произойдет, это побочный эффект от меня, пытаясь создать CDN.
  2. CDN - это некоторый веб-сервер, не обязательно Apache. Я не знаю, какой тип сервера это будет.
  3. Обработка CDN не производится. он просто извлекает данные из исходного сервера. Я думаю, вы не можете поставить пользовательские файлы там на CDN; он просто извлекает данные из исходного сервера. Независимо от того, что вам нужно поставить на CDN, вы получаете исходный сервер.

  4. Как предотвратить сканирование страниц PHP?

  5. Должен ли я разрешать сканирование изображений с сайта cdn.example.com или с example.com? Ссылки на изображения внутри HTML - все на cdn.example.com. Если я разрешаю сканирование изображений только с example.com, то практически не сканируется - ссылок на такие изображения нет. Если я разрешаю сканирование изображений с сайта cdn.example.com, то разве это не утечка преимуществ SEO?

Некоторые альтернативы, которые я рассмотрел, основываясь на StackOverflow ответов:

  1. Написать пользовательские robot_cdn.txt и служат, что пользовательские robots_cdn.txt, основанный на HTTP_HOST. Это как много ответов на переполнение стека.
  2. Подайте новый файл robots.txt из субдомена. Как я уже говорил выше, я не думаю, что CDN можно рассматривать как субдомен.
  3. Do 301 перенаправляет когда HTTP_HOST является cdn.example.com к www.example.com

Предложения?

Вопросы, связанные с этим, например. How Disallow a mirror site (on sub-domain) using robots.txt?

+1

Если вы боретесь за позиции SEO, возможно, отн = каноническое решение должно помочь: включить ** <ссылка отн = «канонической» HREF = «...» /> ** в разделе ** head ** вашей страницы. Подробнее об этом в [google blog] (http://googlewebmastercentral.blogspot.com.es/2009/02/specify-your-canonical.html) – futuretelematics

ответ

0

Вы можете поместить файл robots.txt в свой корневой каталог, чтобы он служил с cdn.-yourdomain-.com/robots.txt. В этом файле robots.txt вы можете запретить все искатели с ниже настройки

User-agent: * 
Disallow:/
Смежные вопросы