2015-04-30 2 views
-2

Мой сайт имеет около 500 000 страниц. Я сделал sitemap.xml и перечислил все страницы в нем (я знаю об ограничении 50 000 ссылок на файл, поэтому у меня есть 10 файлов Sitemap). В любом случае, я отправил sitemaps в webmastertool, и все выглядит нормально (без ошибок и я вижу представленные и индексные ссылки). Hoverer У меня проблема с пауком часто. GoogleBot пауки одной и той же страницы 4 раза в день, но в sitemap.xml Я говорю, что страница будет изменяться ежегодно.GoogleBot очень часто перегружает сервер spidering

Это пример

<url> 
    <loc>http://www.domain.com/destitution</loc> 
    <lastmod>2015-01-01T16:59:23+02:00</lastmod> 
    <changefreq>yearly</changefreq> 
    <priority>0.1</priority> 
</url> 

1) Так как сказать GoogleBot не индексировать так часто, как это перегружает мой сервер?

2) на сайте есть несколько страниц, таких как http://www.domain.com/destitution1, http://www.domain.com/destitution2 ... и я поместил канонический url на http://www.domain.com/destitution. Может ли это быть причиной многократного паука?

ответ

1

Вы можете сообщить об этом в Google ползать команды, смотрите здесь:

В целом, специфические Googlebot ползающих-проблемы, как это лучше всего обрабатываются с помощью инструментов для веб-мастеров непосредственно. Я бы прошел через сайт Настройки для вашего основного домена, скорость сканирования, а затем воспользуйтесь формой «Сообщить ос формой Googlebot». Представления в этой форме перейдите к нашей команде Googlebot, которая может решить, что (или, если угодно) понадобится , которые будут изменены с нашей стороны. Как правило, они не смогут ответить, и не сможет обрабатывать ничего, кроме проблем с обходами, но они уверены, что знают робота Googlebot и могут помочь настроить то, что он делает.

https://www.seroundtable.com/google-crawl-report-problem-19894.html

+0

спасибо за ответ. Я должен проверить его. –

1

ползания будет замедляться постепенно. Вероятно, боты пересматривают ваши страницы, потому что между вашими страницами есть внутренние ссылки.

В целом, канонические, как правило, уменьшают скорость сканирования. Но в начале роботы Google нуждаются в обходе как исходной, так и целевой страницы. Вы увидите преимущество позже.

Боты Google не обязательно принимают lastmod и changefreq информацию во внимание. Но если они создают контент, он не будет изменен, они будут возвращаться реже. Это вопрос времени. У каждого URL есть планировщик для повторных посещений.

Боты адаптируются к емкости сервера (см. crawling summary. Я поддерживаю для более подробной информации). Вы можете временно замедлить ботов, вернув им код ошибки http 500, если это проблема. Они остановятся и вернутся позже.

Я не верю, что с вашим сайтом возникает проблема сканирования. То, что вы видите, - это нормальное поведение. При одновременном представлении нескольких файлов Sitemaps скорость сканирования может быть временно повышена.

+0

благодарю вас за ответ. Я буду проверять сервер, и я сообщу о результате. Вы сразу после подачи, ползание было увеличено. –

Смежные вопросы