2013-06-12 2 views
1

У меня есть URLs, как эти: /продукты /: PRODUCT_ID/предложения/новый /товары /: product_id/предложения/индексrobots.txt: как запретить вложенные папки динамической папки

Я хотел бы, чтобы запретить папка «сделок» в файле robots.txt.

[Изменить] Я хотел бы запретить эту папку для Google, Yahoo и Bing Bots. Кто-нибудь знает, поддерживают ли эти боты подстановочный знак, и так будет поддерживать следующее правило?

Disallow: /products/*/deals 

Также ... Есть ли у вас действительно хорошие пароли в правилах robots.txt? Поскольку мне не удалось найти «действительно» хороший, я мог бы использовать один ...

И последний вопрос: Является ли robots.txt лучшим способом справиться с этим? Или мне лучше использовать метаданные noindex?

Thx вы все! :)

+0

Оригинальная спецификация robots.txt не поддерживает подстановочные знаки (например, '*' в вашем примере). Однако некоторые парсеры поддерживают их (но, я думаю, они отличаются в реализации). – unor

+0

Oww, слишком плохо :(Хорошо, да! Думаю, мне придется пойти с метатегами, верно? :) – Kulgar

+0

Да. Или, если вас интересуют только основные поисковые системы, вы просматриваете их документацию и видите, поддерживают ли они/подстановочные знаки в файле robots.txt (например, Google, похоже, поддерживает их).Вы можете обновить свой вопрос, включив интересующие вас боты/поисковые системы. – unor

ответ

1

Да, все основные поисковые системы поддерживают основные подстановочные знаки *, и ваше решение будет работать, чтобы запретить ваши предложения.

Лучшее место для изучения robots.txt - это действительно Google Developer page. Он содержит множество примеров того, что работает, а что нет. Например, многие люди не знают, что файлы robots.txt зависят от протокола. Так что если вы хотите, чтобы блокировать страницы на https связи, вам необходимо убедиться, что у вас есть файл robots.txt на https://yoursite.com/robots.txt

Вы также можете протестировать новый файл robots.txt, прежде чем применять его через Google Webmaster Tools. В основном вы можете проверить с помощью поисковой системы, действительно ли она будет работать до ее развертывания.

Что касается блокировки чего-либо с помощью файла robots.txt или просто добавления noindex к страницам, я больше склонен использовать noindex в большинстве сценариев, если не знаю, что я не хочу, чтобы поисковые системы обходили этот раздел моего сайт вообще.

Есть некоторые компромиссы. Когда вы полностью блокируете поисковую систему, вы можете сэкономить на некоторых из вашего «бюджета обхода». Таким образом, поисковые системы будут сканировать другие страницы, а затем «тратят» свое время на страницы, которые вы не хотите, чтобы они посещали. Однако эти URL-адреса все еще могут отображаться в результатах поиска.

Если вы абсолютно не хотите, чтобы какой-либо поисковый трафик направлялся на эти страницы, лучше использовать директиву noindex. Кроме того, если вы часто ссылаетесь на страницу сделок, noindex не только удаляет ее из результатов поиска, но и любое значение ссылки/PageRank может проходить через эти страницы и может быть рассчитано соответствующим образом. Если вы заблокируете их от обхода, это своего рода черная дыра.

+1

Какой чудесный и замечательный ответ! Точно объяснение, в котором я нуждался! Огромное спасибо!! – Kulgar

+0

Без проблем, мое удовольствие :) – eywu

0

Если вы не уверены, верен ли ваш синтаксис в файле robots.txt, вы можете проверить его на https://www.google.com/webmasters (чтобы узнать, есть ли какие-либо ошибки). Кроме того, вы можете ввести URL-адрес страницы, и инструмент сообщит вам, если в соответствии с вашим файлом robots.txt он должен быть заблокирован или нет.

Смежные вопросы