2009-12-05 3 views
2

Я отправил исходный код на codeplex и, к моему удивлению, обнаружил, что он появился в google в течение 13 часов. Также, когда я внес некоторые изменения в свою учетную запись на codeplex, эти изменения отразились на Google в течение нескольких минут. Как это произошло ? Есть ли какая-то дополнительная важность, которую google платит за такие сайты, как Codeplex, Stackoverflow и т. Д., Чтобы их результаты отображались в результатах поиска быстро? Есть ли какие-то особые шаги, которые я могу предпринять, чтобы сделать Google сканирование моего сайта несколько быстрее, если не так быстро.Почему google сканирует некоторые сайты в реальном времени?

ответ

7

Google предпочитает некоторые сайты, по сравнению с другими. Существует много магических правил, в случае CodePlex и Stackoverflow мы можем даже предположить, что они вручную навели белый список. Затем Google подписывается на RSS-канал этих сайтов и просматривает их всякий раз, когда появляется новое сообщение RSS.

Пример: Сообщения в моем блоге включены в индекс за считанные минуты, но если я не буду отправлять сообщения в течение нескольких недель, Google просто пройдет каждую неделю или около того.

5

Вероятно (и вы должны быть инсайдером, чтобы знать ...), если они находят достаточно изменений от обхода до ползания, они сужают окно между сканированием до тех пор, пока сайты, такие как популярные блоги/новости, не будут просканированы каждые несколько минут.

+0

Возможно, вы правы. Его удивительная вещь, чтобы знать, что некоторые сайты проскальзывают так быстро! –

+0

Они зарабатывают деньги на поиски сотрудников в сети. они должны обратить внимание на быстро обновляемые сайты ... или другая поисковая система возьмет верх. – Dani

+0

@Bootcamp: Просто думать о Google, и это архитектура и скорость настолько невероятны, вы не можете визуализировать всю работу, которая входит в их программное обеспечение. –

3

Для популярных сайтов, таких как stackoverflow.com, индексирование происходит чаще, чем обычно, вы можете заметить это путем поиска вопроса, который только что был задан.

0

На самом деле ... На популярных сайтах есть определенные каналы, которые они делятся с Google. Сайт обновляет эти каналы, а google обновляет свой индекс при изменении фида. Для других сайтов, которые хорошо зарекомендовали себя, чаще всего просматривают движки, при условии, что есть изменения. Правда, это не общественные знания, и даже для популярных сайтов нет никаких гарантий того, когда в индексе появятся новые опубликованные данные.

0

Real time search - один из самых новых словечек и битв в войнах поисковой системы. Объявленная интеграция с Google/Bing's twitter является хорошим примером этого нового акцента на супер-свежем контенте.

Включение нового контента - настоящая техническая задача и priority для таких компаний, как Google, поскольку приходится сканировать документы, включать их в индекс (который распространяется на сотни/тысячи компьютеров), а затем каким-то образом определить, содержимое релевантно для данного запроса. Помните, поскольку мы индексируем новые документы и твиты, что у этих вещей не будет много входящих ссылок, что является типичной вещью, которая повышает PageRank.

Лучший способ заставить Google/Yahoo/Bing чаще сканировать ваш сайт - это иметь сайт с часто обновляемым контентом, который получает приличный объем трафика. (Все эти компании знают, как популярны сайты, и будут уделять больше ресурсов индексированию сайтов, таких как stackoverflow, nytimes и amazon).

Другое, что вы можете сделать, это также убедиться, что ваш robots.txt не мешает паукам сканирование вашего сайта столько, сколько вы захотите, и обязательно отправьте sitemap в google/bing-hoo, чтобы у них был список ваших URL-адресов.Но будьте осторожны, что вы хотите: http://blog.stackoverflow.com/2009/06/the-perfect-web-spider-storm/

+0

Но Real-Time также создаст больше шума и информационной перегрузки. –

0

Ну даже мой собственный блог появляется в режиме реального времени (это PageRank 3, хотя), так что это не такая большая проблема, я думаю :)

Например, я только что отправил это и она появилась в Google, по крайней мере 37 минут назад (возможно, это было в режиме реального времени, как я не проверял раньше) http://www.google.com/search?q=rebol+cgi+hosting

3

это не очень хорошо известны, но Google relies on pigeons to rank its pages. Некоторые страницы имеют особенно вкусный хлеб, который привлекает голубей внимание гораздо чаще, чем другие страницы.

Смежные вопросы