2014-01-20 3 views
0

Я хочу, чтобы мои пользовательские папки не сканировались поисковым пауком.Исключить определенные папки при сканировании?

Структура выглядит следующим образом. Учетные записи пользователей находятся под

www.mydomain.com/username 

Проблема заключается в том, что я не могу исключить «/» в неразрешенной части моего файла robots.txt, потому что есть и другие папки, как

www.mydomain.com/legal 
www.mydomain.com/privacy 

Там находятся также элементы, которые через пользователь может генерировать, который должен быть сканируемым. Они находятся под

www.mydomain.com/username/items/itemId 

Как я должен настроить мои роботы Txt для этого сценария?

ответ

1

Проверь следующий вопрос ответил, может быть, это может решить ваше:

Robots.txt Disallow Certain Folder Names

Надеется, что это помогает.

EDIT

см следующий ответил на вопрос, с тем чтобы исключить папку, но не его Чайлдс

Robots.txt Allow sub folder but not the parent

и вы должны также рассмотреть возможность использования структуры следующим образом:

mydomain.com/users/user1/subfolder 
mydomain.com/users/user2/subfolder 

, чтобы точно настроить ваши правила.

+0

Ну, это помогает решить первую проблему, но не вторую. Потому что имя пользователя находится на пути к элементам. Есть идеи по этому вопросу? – confile

+0

имя пользователя - переменная? скажем, что у вас есть 2 пользователя (taxicala и confile), у вас будет 2 папки, не так ли? (www.mydomain.com/taxicala/ и www.mydomain.com/confile/) – taxicala

+0

да? и в этих папках находятся подпапки/элементы /, т. е. confile/items/и taxicala/items /. Я хочу, чтобы все в этих подпапках должно было сканироваться. Как я могу это сделать? – confile

1

Если возможно, вам следует следовать предложению таксиста, чтобы изменить структуру вашего каталога.

Если вы совершенно не можете изменить структуру каталогов, вы можете использовать директиву разрешить и подстановочные знаки, чтобы иметь дело с обеими проблемами:

User-agent: * 
Allow: /legal$ 
Allow: /privacy$ 
Allow: /*/items/ 
Disallow:/

Просто надо знать, что не все роботы поддерживают этот синтаксис. Это определенно будет работать для всех основных поисковых систем, но это может не работать для некоторых старых роботов. Кроме того, это не особенно перспективно. Если позже вы добавите новые страницы верхнего уровня и вы забудете добавить их в файл robots.txt, они будут заблокированы. Идеальный подход - использовать структуру каталогов, которая изолирует то, что вы хотите заблокировать, от того, что вы не делаете.

+0

Что означает знак $? – confile

+1

$ означает «конец URL», так что/legal $ будет соответствовать/легально, но он не будет соответствовать/legal/subdir или/legalese или legal? Param = value. – plasticinsect

Смежные вопросы