Я не специалист в этой теме любой натяжкой, но Sitemaps являются одним из способов решения этой проблемы.
В своих Проще говоря, XML Sitemap, обычно называемый Sitemap, с капитала S представляет собой список страниц вашего сайта. Создание и отправки Sitemap помогает убедиться, что Google знает обо всех страницах на вашем сайте, включая URL-адреса, которые не могут быть обнаружены с помощью обычного процесса обхода Google. Кроме того, вы также можете использовать Sitemaps для предоставления Google метаданных об определенных типах контента на вашем сайте, включая видео, изображения, mobile и News.
Google использует это специально, чтобы помочь им сканировать новостные сайты.Вы можете найти более подробную информацию о here на файлах Sitemap и информации о новостях Google и файлах Sitemap here.
Обычно вы можете найти файл Sitemaps.xml в файле robots.txt сайта. Например, Карта сайта Течкрунча просто
http://techcrunch.com/sitemap.xml
, который превращает эту проблему в разборе XML на регулярной основе. Если вы не можете найти его в файле robots.txt, вы всегда можете связаться с веб-мастером и посмотреть, предоставят ли он его вам.
UPDATE 1 24 октября 2012 10:45 утра,
Я говорил с одним из членов моей команды, и он дал мне дополнительные сведения о том, как мы справиться с этой проблемой. Я хочу действительно повторить, что это не простая проблема и требует много частичных решений.
Другое, что мы делаем, это отслеживать несколько «индексных страниц» для изменений в данном домене. Возьмите, например, «Нью-Йорк Таймс». Мы создаем одну индексную страницу для домена верхнего уровня по адресу:
http://www.nytimes.com/
Если вы посмотрите на страницу, вы можете заметить дополнительные подобласти, как мировой, США, политика, бизнес и т.д. Мы создаем дополнительные индексные страницы для всех них. У бизнеса есть дополнительные вложенные индексные страницы, такие как Global, DealBook, Markets, Economy и т. Д. Нередко URL-адрес имеет 20 страниц с индексом. Если мы заметим какие-либо дополнительные URL-адреса, добавленные в индекс, мы добавим их в очередь для сканирования.
Очевидно, это очень неприятно, потому что вам, возможно, придется делать это вручную для каждого сайта, который вы хотите обходить. Возможно, вы захотите рассмотреть возможность оплаты решения. Мы используем SuprFeedr и очень довольны этим.
Кроме того, многие веб-сайты по-прежнему предлагают RSS, который является эффективным способом сканирования страниц. Я бы порекомендовал обратиться к веб-мастеру, чтобы узнать, есть ли у них какое-то простое решение, которое поможет вам.
Спасибо. Позвольте мне спросить о чем-то более конкретном, хотя, что в случае сканирования разных каталогов? Например, страница с каталогом людей, которые доступны для поиска, но может быть просмотрена в алфавитном порядке без фильтров? Или страницу, которая собирает статьи и публикует их в порядке их даты публикации в Интернете? Как бы можно было обнаружить, что была введена новая запись, скажем, на стр. 34. Мне пришлось бы пересказывать все доступные страницы? – Swader
Листинговые страницы, очевидно, имели бы новые заголовки ETag (но не обязательно новые заголовки с лазисом). В большинстве случаев вам придется пересказывать страницы с листингами. Но, когда вы также следите за ссылками на отдельные страницы статей, вам нужно будет только сканировать новые сообщения. – simonmenke
Etag/Last-Modified не являются надежными источниками для модификации страницы специально для динамически созданного контента. Во многих случаях эти переменные генерируются интерпретатором языка неточно. – AMIB