Я хочу, чтобы мои пользовательские папки не сканировались поисковым пауком.Исключить определенные папки при сканировании?

Структура выглядит следующим образом. Учетные записи пользователей находятся под

www.mydomain.com/username

Проблема заключается в том, что я не могу исключить «/» в неразрешенной части моего файла robots.txt, потому что есть и другие папки, как

www.mydomain.com/legal 
www.mydomain.com/privacy

Там находятся также элементы, которые через пользователь может генерировать, который должен быть сканируемым. Они находятся под

www.mydomain.com/username/items/itemId

Как я должен настроить мои роботы Txt для этого сценария?

источник

2014-01-20 confile

Проверь следующий вопрос ответил, может быть, это может решить ваше:

Robots.txt Disallow Certain Folder Names

Надеется, что это помогает.

EDIT

см следующий ответил на вопрос, с тем чтобы исключить папку, но не его Чайлдс

Robots.txt Allow sub folder but not the parent

и вы должны также рассмотреть возможность использования структуры следующим образом:

mydomain.com/users/user1/subfolder 
mydomain.com/users/user2/subfolder

, чтобы точно настроить ваши правила.

источник

2014-01-20 15:54:56 taxicala

Ну, это помогает решить первую проблему, но не вторую. Потому что имя пользователя находится на пути к элементам. Есть идеи по этому вопросу? – confile

имя пользователя - переменная? скажем, что у вас есть 2 пользователя (taxicala и confile), у вас будет 2 папки, не так ли? (www.mydomain.com/taxicala/ и www.mydomain.com/confile/) – taxicala

да? и в этих папках находятся подпапки/элементы /, т. е. confile/items/и taxicala/items /. Я хочу, чтобы все в этих подпапках должно было сканироваться. Как я могу это сделать? – confile

Если возможно, вам следует следовать предложению таксиста, чтобы изменить структуру вашего каталога.

Если вы совершенно не можете изменить структуру каталогов, вы можете использовать директиву разрешить и подстановочные знаки, чтобы иметь дело с обеими проблемами:

User-agent: * 
Allow: /legal$ 
Allow: /privacy$ 
Allow: /*/items/ 
Disallow:/

Просто надо знать, что не все роботы поддерживают этот синтаксис. Это определенно будет работать для всех основных поисковых систем, но это может не работать для некоторых старых роботов. Кроме того, это не особенно перспективно. Если позже вы добавите новые страницы верхнего уровня и вы забудете добавить их в файл robots.txt, они будут заблокированы. Идеальный подход - использовать структуру каталогов, которая изолирует то, что вы хотите заблокировать, от того, что вы не делаете.

источник

2014-01-20 21:55:14 plasticinsect

Что означает знак $? – confile

$ означает «конец URL», так что/legal $ будет соответствовать/легально, но он не будет соответствовать/legal/subdir или/legalese или legal? Param = value. – plasticinsect

Исключить определенные папки при сканировании?

ответ

EDIT

Смежные вопросы