2016-04-29 3 views
0

Что происходит, когда строка Disallow содержит более одного URI? Пример:robots.txt: как плохо сформированы строки запрета обработки

Disallow:/tmp/ 

I пустое место введено по ошибке.

Есть ли стандартный способ работы с веб-браузерами? Есть ли они игнорируют всю линию или просто игнорировать второй URI и относиться к нему как:

Disallow:/
+1

При чтении ['robots.txt' standard] (http://www.robotstxt.org/orig.html) очень строго это пространство является частью значения поля, поскольку ожидается такое же лечение строка «Пользователь-агент». Я считаю, что это эквивалентно '/% 20tmp /'. Однако другие разработчики могут не согласиться. Стандарт довольно дрянной. –

+0

Самый простой способ проверить - просто использовать инструменты для веб-мастеров Google и проверить их парсер/помощник robots.txt. –

+0

К сожалению, у меня нет доступа к веб-серверу прямо сейчас, и, видимо, этот инструмент предназначен для работы с доменом, я не могу просто отправить файл robots.txt ... – karmapolice

ответ

1

Google, по крайней мере, кажется, рассматривать первый не пробел в начале пути, и последний не- космический символ как конец. Все, что находится между ними, считается частью пути, даже если это пробел. Google также молча процитирует определенные символы на пути, включая пробелы.

Так следующее:

Disallow:/tmp/ 

перекроют:

http://example.com/%20tmp/ 

но это будет не блок:

http://example.com/tmp/ 

Я проверил это на robots.txt тестер компании Google , YMMV для сканеров, кроме Google.

Смежные вопросы