2013-05-02 2 views
4

Я делаю редизайн для клиента. На новом сайте я хотел бы использовать Google Custom Search (CSE) в качестве поисковой системы. Пока я нахожусь в разработке, я не могу позволить Google индексировать новый сайт, так как это был бы ужасный беспорядок дублирования и половину страниц, плавающих в индексе Googles.Google Custom Search в разработке

Как я могу проверить и уточнить результат поиска из Google CSE на моем сайте разработки до запуска?

Спасибо, Daniel

+0

Будет ли этот сайт находиться в домене? Потому что в противном случае нет необходимости пересматривать индексирование. – fotanus

+0

Что вы подразумеваете под «в домене»? В конце концов, это будет указано на сайте www.example.com, но во время разработки и тестирования это на test.example.com. –

ответ

0

Вы можете избежать некоторых страниц индексацию с помощью robots

владельцы веб-сайта с помощью файла /robots.txt, чтобы дать инструкции о их сайте для веб-роботов; это называется «Исключение роботов» Протокол.

Это нравится: робот хочет отобразить URL-адрес веб-сайта, скажем http://www.example.com/welcome.html. Перед тем как он это делает, то он сначала чеки http://www.example.com/robots.txt, и находит:

User-agent: * 
Disallow:/

«пользователь-агент: *» означает, что этот раздел относится ко всем роботам. «Запретить: /» сообщает роботу, что он не должен посещать страницы на сайте .

Глядя на документы, я не могу найти ничего о файле robots.txt, поэтому не уверен, что он соблюден. но, глядя на docs, вы можете удалить его вручную или установить дату истечения срока действия на sitemap.xml

+0

OP сказал ** перед запуском **, поэтому сайт не будет в сети при тестировании. Кажется, ему нужна возможность протестировать его в автономном режиме или на локальной машине. – Uooo

+0

@ w4rumy спасибо, может быть, я не понял вопроса? Сделаю некоторые комментарии, чтобы попытаться сделать это более ясным для меня. – fotanus

+0

Спасибо за ваш ответ. Чтобы уточнить: Предпочтительно, я хотел бы запустить его на локальной машине, однако это не обязательно. Живой (старый) сайт находится на www.awesomesite.com, и новый сайт, который находится в стадии разработки, находится на test.awesomesite.com. Таким образом, Google может получить доступ к тестовому сайту, но я не хочу, чтобы страницы под test.awesomesite.com отображались в общем индексе google. Что касается решения robot.txt, разве это не остановит Google CSE индексирование страниц для локального поиска? –

2

Ваши сайты должны быть добавлены в вашу учетную запись инструментов для веб-мастеров. После того, как я добавил свои тестовые сайты, я смог просканировать страницы с поиском по сайту с помощью файла robots.txt в индексе, который запрещает поиск по сайту.

Я смог просканировать страницу, но для проверки я проверил URL-адрес в инструментах для веб-мастеров, и он говорит, что страница по-прежнему скрыта от основного индекса google. Я добавил этот же URL-адрес к индексу пользовательского поиска, и если бы его было просто отлично.

Таким образом, это позволит вам найти ваш тестовый сайт, но не скрывать его от поиска по всему миру.

enter image description here

2

По состоянию на ноября 2016 года, это до сих пор не представляется возможным. Я понимаю, что это спустя годы после того, как был задан вопрос, но я пытался это сделать. Это (неутешительный) ответ, который я получил от запроса к службе поддержки Google.

Google Site Search будет возвращать только те URL в результате которых:

  1. Добавлено в сайтах для поиска конфигурации и
  2. индексируются

Я хотел бы обновить, что GSS размещается в инфраструктуре Google и использует ту же технологию, что и в Google.com. невозможно получить страницы, индексированные в GSS, но не в Основной указатель Google.

GSS может индексировать и обходить только те документы, которые являются общедоступными, и , доступный через Интернет.

GSS и Google.com используют один и тот же сканер и тот же сервер индексирования. Итак, если вы блокируете доступ для google.com, ваши страницы не будут индексироваться и также будут отправлены в GSS.

Смежные вопросы