Я сохраняю свои файлы Sitemap в своей веб-папке. Я хочу, чтобы веб-сканеры (Googlebot и т. Д.) Могли получить доступ к файлу, но я не обязательно хочу, чтобы все и каждый имели доступ к нему.Вопрос о файлах Sitemap
Например, этот сайт (stackoverflow.com) имеет индекс сайта - как указано в файле robots.txt (https://stackoverflow.com/robots.txt).
Однако, когда вы набираете https://stackoverflow.com/sitemap.xml, вы попадаете на страницу 404.
Как я могу реализовать одно и то же на своем веб-сайте?
Я запускаю сайт LAMP, также использую файл индекса sitemap (так что у меня есть несколько карт сайта для сайта). Я хотел бы использовать тот же механизм, чтобы сделать их недоступными через браузер, как описано выше.
Это, безусловно, так, как я хочу. пользовательские агенты довольно легко подделать, так что это имеет некоторые апелляции. Я знаю, что это ни в коем случае не «волшебная серебряная пуля», но я думаю, что она (по крайней мере, незначительно) более надежна, чем логика на стороне сервера, включающая строки пользовательского агента. Не могли бы вы привести пример, который позволит получить доступ к файлам sitemap-index.xml и * .gz в веб-папке, если запрос отправлен с google.com? – morpheous
@Morpheous, трюк - найти сети - google crawls from googlebot.com, и кто знает, достаточно ли они достаточно, чтобы придерживаться одиночных сетевых блоков или использовать десятки netblocks. Я бы предложил просмотреть ваши журналы и выяснить, какие из них вы хотите разрешить, и которые вы хотите отрицать. – sarnold