2015-03-13 3 views
-1

Я настраиваю файл robots.txt для роботов и не могу понять, какие контроллеры я должен блокировать от них. Конечно, я читал какую-то информацию в Интернете, но все же есть некоторый разрыв между тем, что я хочу знать, и тем, что я нашел до сих пор. Таким образом, было бы неплохо, если бы вы могли бы мне помочь и ответить на некоторые вопросы:Пара вопросов о роботах и ​​блокировании контента

  • Что я должен блокировать от роботов в файле robots.txt? Это не так просто. Например, у меня есть PHP-файл INDEX в корне (почти со всем содержимым), в нем есть движок, называемый ADMIN. В этом каталоге много каталогов и файлов, некоторые из них на самом деле являются данными, которые использует INDEX в корневой папке. Весь смысл здесь, если я заблокирую реестр ADMIN от роботов, будет ли он по-прежнему получать все данные в INDEX, взятые из каталога ADMIN?

  • Как и прежде, есть файл INDEX PHP с PHP-скриптом, который генерирует автоматические ссылки для следующих страниц (конечно, зависит от количества данных в каталоге ADMIN). Это нормально индексируется роботами как обычные ссылки и все данные, следующие за этими ссылками?

  • Если я хочу заблокировать каталог ADMIN и все файлы в нем от роботов, достаточно ли написать это?

    User-agent: * 
    Disallow: /ADMIN/ 
    

ответ

1

Боты не заботятся о вашей внутренней стороне сервера системы (ну, они не могут видеть его, чтобы начать с).

Они посещают ваш сайт так же, как человеческий посетитель: по ссылкам (со своего сайта, с внешних сайтов, с вашего сайта и т. Д.), А некоторые могут также «угадать» URL-адреса.

Так что важны ваши URL-адреса.

Если у вас есть URL-адрес, который вы не хотите посещать боты («обход»), запретите его в файле robots.txt.

Это robots.txt

# hosted at http://example.com/ 

User-agent: * 
Disallow: /ADMIN/ 

бы запретить сканирование URL-адресов, как следующее:

  • http://example.com/ADMIN/
  • http://example.com/ADMIN/index.html
  • http://example.com/ADMIN/CMS/foo
  • http://example.com/ADMIN/images/foo.png

Но следующие URL-адреса будут по-прежнему иметь возможность сканировать:

  • http://example.com/ADMIN
  • http://example.com/admin/
  • http://example.com/foo/ADMIN/
+0

Ok, спасибо много. НО ... там много ботов, и я их боюсь. Некоторые из них не соответствуют правилам, записанным в файле robots.txt. Задачами являются: 1) как блокировать ботов, которые не подчиняются правилам в файле robots.txt. 2) Как предотвратить использование хакерами-ботами индексирования файлов, запрещенных роботами.txt (а не серверные файлы кода)? – dotzzy

+0

@ dotzzy: Да, только вежливые боты следуют за вашим robots.txt. Для других ботов вам придется блокировать их на стороне сервера (например, через «.htaccess», если вы используете Apache и/или через PHP). Трудная часть заключается в том, как * обнаружить * их. - В идеале вы бы ожесточили свой сайт: не публикуйте контент, который вы не хотите индексировать (например, помещаете его за какой-то логин), и убедитесь, что ваше приложение защищено. – unor

+0

Хорошо, так что, если я поставлю запрет, разрешите только с моего ip на некоторые файлы/файлы, эти боты не смогут получить к ним доступ, правильно? или есть какие-то трюки, которые они могут использовать, и заставить их отсканировать? – dotzzy

Смежные вопросы