2010-07-08 7 views
22

У меня есть мой блог (вы можете видеть его, если хотите, из моего профиля), и он свежий, а также результаты анализа роботов Google.Есть ли способ заставить роботов игнорировать определенный текст?

Результаты были тревожными для меня. По-видимому, наиболее распространенными словами на моем сайте являются «rss» и «feed», потому что я использую текст для ссылок, таких как «Комментарии RSS», «Почтовый фид» и т. Д. Эти два слова будут присутствовать в каждом посте, а другие слова будет более редким.

Есть ли способ, чтобы эти ссылки исчезли из разбора Google? Я не хочу, чтобы технические ссылки индексировались. Я хочу, чтобы контент, заголовки и описания индексировались. Я ищу что-то другое, кроме замены этого текста изображениями.

Я нашел несколько старых дискуссий на Google, еще с 2007 года (я думаю, что в 3-х лет многое могло измениться, надеюсь, это тоже)

Этот вопрос не о robots.txt и как сделать Google игнорировать страницы. Речь идет о том, чтобы игнорировать небольшие части страницы или преобразовывать части таким образом, чтобы они были видны людям и невидимы для роботов.

ответ

12

Существует простой способ сказать Google, чтобы не индексировать части документов, которые использует googleon и googleoff:

<p>This is normal (X)HTML content that will be indexed by Google.</p> 

<!--googleoff: index--> 

<p>This (X)HTML content will NOT be indexed by Google.</p> 

<!--googleon: index--> 

В этом примере второй пункт не будут проиндексированы Google.Обратите внимание на параметр «index», который может быть установлен на любой из следующих действий:

  • index - содержание в окружении «googleoff: index» не будет индексироваться от Google

    anchor - якорный текст для любых ссылок в «googleoff: anchor» области не будет связана с целевой страницей

    snippet - содержание в окружении «googleoff: snippet» будет не может быть использован для создания фрагментов результатов поиска

    all - содержания в окружении «googleoff: all» обрабатывают все

source

+1

Выглядит законно. Однако этот вопрос утратил свою актуальность для меня. Я не могу его протестировать, но при поиске похоже, что это решение. Я отмечаю это как таковое, но все, кто читает это, знают, что он пока не проверен. Дополнительная информация с utk.edu http://google.utk.edu/ut-help/googleongoogleoff/ – AlexanderMP

+7

Это для GSA, а не для GoogleBot. из wikibedia: http://en.wikipedia.org/wiki/Noindex Главный индексирующий паук Google, Googlebot, как известно, не знает ни одного из этих методов. – Myster

+8

'googleon',' googleoff'tags поддерживаются только Google Search Appliance (при размещении собственных результатов поиска). Таким образом, это не будет препятствовать Google боту сканировать этот текст. – reversiblean

1

Единственный элемент управления, который у вас есть над индексационными роботами, является файлом robots.txt. См. this documentation, связанный Google по телефону their page explaining the usage of the file.

В основном вы можете запрещать определенные ссылки и URL, но не обязательно ключевые слова.

+2

Да, я знаю о robots.txt. Это реализовано. Русские поисковые системы предоставляют определенные теги, например , и все, что находится между ними, игнорируется поисковой системой. Yahoo предоставляет что-то, основанное на именах классов. Разве Google ничего не предлагает? – AlexanderMP

0

Вы должны вручную обнаружить «Google Bot» у пользовательского агента запроса и подавать им немного другого контента, чем обычно для своего пользователя.

+2

Это ужасный совет. Это хороший способ получить Google-шлепок. –

+0

Я не думаю, что это так плохо. Что делать, если у вас есть сайт, основанный на подписке, но вы все еще хотите, чтобы Google индексировал контент? Я не думаю, что вы получите «google-spanked» –

+1

@ Аарон Харун, его не черная шляпа, его полностью белая шляпа, пока вы не обслуживаете совершенно другой контент. – iamgopal

0

Нет, в действительности нет ничего подобного. Существуют различные серверные методы, но если Google поймает, что вы обслуживаете другой текст для своего бота, чем вы даете посетителям сайта, он будет наказывать вас.

1

В отличие от методов серверной стороны черной шляпы, вы ничего не можете сделать. Вы можете посмотреть, почему у вас есть эти слова так часто и удалить некоторые из них с сайта.

Раньше было так, что вы могли использовать JS для «скрытия» вещей от googlebot, но теперь вы не можете теперь разбирать JS. (http://www.webmasterworld.com/google/4159807.htm)

+0

Это очень интересно. Поэтому, если я заменю текстовые инструменты такими, как cufon, бот Google проанализирует этот JS, преобразует текст и игнорирует его, потому что тогда это будет только холст? – AlexanderMP

+0

Нет гарантий, Google сжимается о том, что бот может и не может сделать, поэтому он, вероятно, не сработает. Однако вы можете начать с холста, а не заменять Cufon. –

7

Я работаю на сайте с топ-3 рейтингами google для тысяч школьных имен в США, и мы делаем большую работу по защите нашего SEO. Есть 3 основных вещей, которые вы могли бы сделать (которые все, вероятно, это пустая трата времени, продолжайте чтение):

  • Переместить материал, который Вы хотите, чтобы преуменьшить в нижней части HTML и использовать CSS и/или разместить его где вы хотите, чтобы читатели увидели это. Это не скроет его от сканеров, но они оценят его ниже.
  • Замените эти ссылки изображениями (вы говорите, что не хотите этого делать, но не объясняйте, почему нет)
  • Служите другой странице сканерам, с этими ссылками. В этом нет ничего черного, если контент в корне тот же, что видит браузер. Поисковые системы будут зависеть от вас, если вы будете обслуживать страницу, которая значительно отличается от того, что видят пользователи, но если вы лишили ссылки RSS из версии индекса обходчиков страниц, у вас не возникло бы проблемы.

Это говорит о том, что гусеницы умны, и вы не единственный сайт, заполненный ссылками permalink и rss.Они заботятся о контексте и ищут термины и фразы в заголовках и тексте тела. Они знают, как определить, что ваш блог посвящен технологиям, а не RSS. Я очень сомневаюсь, что эти ссылки оказывают какое-то негативное влияние на ваш SEO. Какую проблему вы пытаетесь решить?

Если вы хотите построить SEO, выясните, какую ценность вы предоставляете читателям и пишите об этом. Скажите интересные вещи, которые приведут других к ссылке на ваш блог, а сканеры поймут, что вы источник информации, который люди ценят. Подумайте больше о том, что ваши читатели видят и понимают, и меньше о том, что вы думаете искатель.

+0

Спасибо. Просто я могу сделать свой блог лучшим, если напишу странную комбинацию названий категорий, 2 темы сообщений и добавив ключевые слова «rss» и «feed». Без «rss» и «feed» это путь до конца. Я снова прочитаю правила и обращу внимание на предложения, связанные с обслуживанием немного другого контента для ботов. – AlexanderMP

1

Прежде всего подумайте о проблеме. Если Google считает, что «RSS» является основным ключевым словом, которое может предполагать, что остальная часть вашего контента немного неглубока и нуждается в расширении. Возможно, это должно быть в центре внимания вашего внимания. Если остальная часть вашего контента богата, я бы не стал беспокоиться об этой проблеме, так как поисковая система должна знать, о чем идет речь в заголовке и заголовках. Просто убедитесь, что RSS и т. Д. Не находится в заголовке или жирной или сильной теге.

Во-вторых, как вы правильно говорите, вы, вероятно, не хотите использовать изображения, так как они не могут быть оценены для чтения с экрана без текста и если у них есть текст или текст, то вы добавляете ключевое слово. помогите вам обойти эту проблему, но я не специалист по доступности.

Опции:

  • Использование JavaScript, чтобы написать, что немного контента (возможно АЯКС его после нагрузки). Поисковые системы, такие как Google, могут выполнять JavaScript, но я бы предположил, что он не будет очень ценным для любого написанного JS-контента.
  • Повторно добавьте контент или удалите его дубликаты, одна важная ссылка для RSS-канала может быть лучше, чем несколько меньших, размещенных вокруг страницы.
  • Используйте атрибут css-контента с псевдо: до или: после добавления вашего контента. Я не уверен, что боты будут индексировать слова в атрибутах контента в CSS и знать это значение содержимого по отношению к каждой странице, но это кажется маловероятным. Полагая слова, подобные RSS в CSS, в основном говорит, что это вещь стиля, а не вещь в HTML, поэтому даже если для индексирования она не добавит много/никакой ценности. Так, например, HTML и CSS может быть:

    <a href="/my-feed.rss" class="add-text"></a> 
    
    .add-text:after { content:'View my RSS feed'; } 
    

Примечание выше, не будет работать в старых версиях IE, так что вам, возможно, потребуется несколько IE версии комментариев, если вы заботитесь об этом.

0

Google гусеничный умный, но тот, кто их программирует, является самым умным. Человек всегда видит то, что разумно на странице, они будут тратить время на блог, у которого есть приятный контент и самый редкий и уникальный. Это все о здравом смысле, как люди посещают ваш блог и сколько времени они проводят. Google измеряет результат поиска таким же образом. Рейтинг вашей страницы также увеличивается с увеличением ежедневных посещений, а контент сайта улучшается и обновляется каждый день. На этой странице есть слова «Ответ», повторяющиеся несколько раз. Это не значит, что он не будет проиндексирован. Насколько это полезно каждому. Я надеюсь, что это даст вам некоторое представление о

Смежные вопросы