2010-01-03 3 views
-1

У меня есть огромный сайт с более чем 5 миллионами URL-адресов.карта сайта стратегия генерации

У нас уже есть пейджер 7/10. Проблема в том, что из-за 5 миллионов URL-адресов и потому, что мы ежедневно добавляем/удаляем новые URL-адреса (мы добавляем ± 900, а мы удаляем ± 300), Google не достаточно быстрый, чтобы индексировать их все. У нас есть огромный и интенсивный модуль perl для создания этого файла Sitemap, который обычно состоит из 6 файлов Sitemap. Конечно, Google не быстрее, чтобы добавить все URL-адреса, особенно потому, что обычно мы каждый день обновляем все эти sitemaps и отправляем в Google. Мой вопрос: какой должен быть лучший подход? Должен ли я действительно отправлять 5 миллионов URL-адресов в google ежедневно, даже если я знаю, что Google не сможет обработать? Или я должен отправлять только постоянные ссылки, которые не будут меняться, а искатель google найдет остальное, но по крайней мере у меня будет краткий индекс в google (сегодня у меня меньше 200 из 5000 000 URL-индексов)

+2

Хорошо, если вы удаляете так много URL-адресов ежедневно .. почему он должен индексировать Google? – Shoban

ответ

1

В чем смысл большого количества индексированных сайтов, которые удаляются сразу? Временные страницы бесполезны для поисковых систем и их пользователей после их размещения. Поэтому я хотел бы позволить поисковым роботам решать, стоит ли индексировать страницу. Просто сообщите им URL-адреса, которые будут сохраняться ... и реализуют некоторые страницы списков (если их еще нет), которые облегчают сканирование ваших страниц.

Примечание: 6 файлов Sitemap для 5-кратных URL-адресов? AFAIK, файл Sitemap не может содержать более 50 тыс. URL-адресов.

+0

вы разделите его на индекс файла Sitemap, указывающий на N файлов, каждый из которых содержит 50k URLS –

+0

Кто сказал, что страницы удалены сразу? Рассмотрите элементы аукциона eBay с 7-дневной продолжительностью жизни - это плохая идея сделать эти индексируемые поисковыми системами? –

+0

@VP Я знаю, просто интересно, потому что вы написали 6 файлов –

0

Почему нет, t вы просто сравниваете свою карту сайта с предыдущей, и отправляете только URL-адреса, которые были изменены!

+0

Я делаю это уже. Проблема в том, что мы должны удалить также URL-адреса. –

+0

Я бы подумал, что Google будет достаточно умен, чтобы удалять URL-адреса, если вы отправляете их, которые больше не существуют. – James

+0

Каждый элемент сайта должен содержать временную метку lastmod, поэтому я не понимаю, почему у Google должна быть проблема с фильтрацией тех, которые не изменились с момента последнего индексации карты сайта. –

1

При изменении URL-адресов вы должны следить за тем, чтобы вы правильно работали с статусом 301 (постоянная переадресация).

Редактировать (уточнять): Еще вы должны попробовать, чтобы ваши шаблоны URL становились стабильными. Вы можете использовать 301 для перенаправления, но сохранение большого количества правил переадресации является громоздким.