2010-03-28 2 views
4

Предположим, что несколько внешних сайтов соскабливают/собирают ваш контент и публикуют его как свои собственные. Предположим также, что вы сохраняете единственный уникальный/постоянный URL-адрес для каждой части контента, так что сглаживание контента (на вашем сайте) никогда не является проблемой.Каноническая ссылка как способ борьбы с скребками?

Есть ли какое-либо значение с точки зрения SEO, чтобы включить в ваш заголовок canonical link, так что, когда ваш сайт «очищается», каноническая индикация вводится на любой сайт, крадя ваш контент (при условии, что они собирают необработанный HTML-код а не через RSS и т. д.)?

Я слышал разные вещи о поведении межсайтовых канонических ссылок, от «их игнорируют» до «поведения неопределенного», «чтобы это не помешало», «чтобы убедиться, что это именно то, что каноническое предназначено для ». Мое впечатление было то, что канонический был хорошим способом иметь дело с внутри-сайт, но необязательно inter -это наложение псевдонимов.

+3

Я серьезно сомневаюсь, что сайты, крадущие контент из других источников, будут включать в себя и канонический URL. В большинстве случаев они переносят * контент * (например, извлеченный из RSS), а не полный исходный HTML-код исходного сайта (включая заголовки). – Joey

+0

Роботы не заботятся о канониках, они игнорируют их. Вы должны использовать абсолютные пути, поэтому, если кто-то крадет ваш контент, по крайней мере, вы можете отслеживать их по обратной ссылке – Ben

ответ

4

Я не могу ответить на ваш вопрос напрямую.

Вы (кто-то в вашей компании) должны связаться со сторонами, которые синдицируют ваш контент без разрешения, и попытайтесь заставить их сделать это с разрешения. Вы должны уточнить свою политику в отношении несанкционированного синдикации. Это, конечно, деловое решение, и вам, вероятно, придется вовлечь вас в процесс развития/процесс развития людей и юристов в области ИС.

Если они настойчиво продолжают это делать, и вам абсолютно необходимо заставить их остановиться, вы можете начать подавать барахло своим роботам. Обнаружение их роботов может быть нетривиальным, поскольку они, вероятно, будут создавать «настоящий» заголовок пользовательского агента и использовать разные IP-адреса (большинство злоумышленников, похоже, используют EC2 в наши дни), однако, если вы успешны, их веб-сайты станут полными от мусора.

Как только их веб-сайты становятся полны мусора (или, что еще хуже), вы можете связаться с ними снова, спросив их, хотят ли они прекратить свое неприятное поведение.

+2

+1 для загрузки нежелательных роботов. все знают, что это их любимая еда. –

+0

Я обычно не защищаю кормление роботов, в идеале вы должны убедить пользователей роботов остановиться сами. У кормления роботов нежелательные эффекты, которые вы не хотите. – MarkR

Смежные вопросы