Я настраиваю файл robots.txt для роботов и не могу понять, какие контроллеры я должен блокировать от них. Конечно, я читал какую-то информацию в Интернете, но все же есть некоторый разрыв между тем, что я хочу знать, и тем, что я нашел до сих пор. Таким образом, было бы неплохо, если бы вы могли бы мне помочь и ответить на некоторые вопросы:Пара вопросов о роботах и блокировании контента
Что я должен блокировать от роботов в файле robots.txt? Это не так просто. Например, у меня есть PHP-файл INDEX в корне (почти со всем содержимым), в нем есть движок, называемый ADMIN. В этом каталоге много каталогов и файлов, некоторые из них на самом деле являются данными, которые использует INDEX в корневой папке. Весь смысл здесь, если я заблокирую реестр ADMIN от роботов, будет ли он по-прежнему получать все данные в INDEX, взятые из каталога ADMIN?
Как и прежде, есть файл INDEX PHP с PHP-скриптом, который генерирует автоматические ссылки для следующих страниц (конечно, зависит от количества данных в каталоге ADMIN). Это нормально индексируется роботами как обычные ссылки и все данные, следующие за этими ссылками?
Если я хочу заблокировать каталог ADMIN и все файлы в нем от роботов, достаточно ли написать это?
User-agent: * Disallow: /ADMIN/
Ok, спасибо много. НО ... там много ботов, и я их боюсь. Некоторые из них не соответствуют правилам, записанным в файле robots.txt. Задачами являются: 1) как блокировать ботов, которые не подчиняются правилам в файле robots.txt. 2) Как предотвратить использование хакерами-ботами индексирования файлов, запрещенных роботами.txt (а не серверные файлы кода)? – dotzzy
@ dotzzy: Да, только вежливые боты следуют за вашим robots.txt. Для других ботов вам придется блокировать их на стороне сервера (например, через «.htaccess», если вы используете Apache и/или через PHP). Трудная часть заключается в том, как * обнаружить * их. - В идеале вы бы ожесточили свой сайт: не публикуйте контент, который вы не хотите индексировать (например, помещаете его за какой-то логин), и убедитесь, что ваше приложение защищено. – unor
Хорошо, так что, если я поставлю запрет, разрешите только с моего ip на некоторые файлы/файлы, эти боты не смогут получить к ним доступ, правильно? или есть какие-то трюки, которые они могут использовать, и заставить их отсканировать? – dotzzy