robots.txt: как плохо сформированы строки запрета обработки

Что происходит, когда строка Disallow содержит более одного URI? Пример:robots.txt: как плохо сформированы строки запрета обработки

Disallow:/tmp/

I пустое место введено по ошибке.

Есть ли стандартный способ работы с веб-браузерами? Есть ли они игнорируют всю линию или просто игнорировать второй URI и относиться к нему как:

Disallow:/

источник

2016-04-29 karmapolice

При чтении ['robots.txt' standard] (http://www.robotstxt.org/orig.html) очень строго это пространство является частью значения поля, поскольку ожидается такое же лечение строка «Пользователь-агент». Я считаю, что это эквивалентно '/% 20tmp /'. Однако другие разработчики могут не согласиться. Стандарт довольно дрянной. –

Самый простой способ проверить - просто использовать инструменты для веб-мастеров Google и проверить их парсер/помощник robots.txt. –

К сожалению, у меня нет доступа к веб-серверу прямо сейчас, и, видимо, этот инструмент предназначен для работы с доменом, я не могу просто отправить файл robots.txt ... – karmapolice

Google, по крайней мере, кажется, рассматривать первый не пробел в начале пути, и последний не- космический символ как конец. Все, что находится между ними, считается частью пути, даже если это пробел. Google также молча процитирует определенные символы на пути, включая пробелы.

Так следующее:

Disallow:/tmp/

перекроют:

http://example.com/%20tmp/

но это будет не блок:

http://example.com/tmp/

Я проверил это на robots.txt тестер компании Google , YMMV для сканеров, кроме Google.

источник

2016-04-29 23:00:28 plasticinsect

robots.txt: как плохо сформированы строки запрета обработки

ответ

Смежные вопросы