Что происходит, когда строка Disallow содержит более одного URI? Пример:robots.txt: как плохо сформированы строки запрета обработки
Disallow:/tmp/
I пустое место введено по ошибке.
Есть ли стандартный способ работы с веб-браузерами? Есть ли они игнорируют всю линию или просто игнорировать второй URI и относиться к нему как:
Disallow:/
При чтении ['robots.txt' standard] (http://www.robotstxt.org/orig.html) очень строго это пространство является частью значения поля, поскольку ожидается такое же лечение строка «Пользователь-агент». Я считаю, что это эквивалентно '/% 20tmp /'. Однако другие разработчики могут не согласиться. Стандарт довольно дрянной. –
Самый простой способ проверить - просто использовать инструменты для веб-мастеров Google и проверить их парсер/помощник robots.txt. –
К сожалению, у меня нет доступа к веб-серверу прямо сейчас, и, видимо, этот инструмент предназначен для работы с доменом, я не могу просто отправить файл robots.txt ... – karmapolice