2009-08-17 3 views
0

Я занимаюсь очень рудиментарным отслеживанием просмотров страниц, регистрируя URL-адрес, коды рефералов, сеансы, время и т. Д., Но обнаружив, что он бомбардируется роботами (Google, Yahoo и т. Д.). Мне интересно, какой эффективный способ отфильтровать или не регистрировать эти статистические данные?Как отслеживать всю активность сайта и фильтровать данные веб-робота

Я экспериментировал с списками IP-адресов роботов и т. Д., Но это не является надежным.

Есть ли какой-то robots.txt, htaccess, PHP-серверный код, javascript или другой метод (ы), который может «обмануть» роботов или игнорировать взаимодействие с человеком?

ответ

1

Только для добавления - метод, который вы можете использовать в своем интерфейсе, - это использовать Javascript для инкапсуляции действий, приводящих к определенным показателям взаимодействия с пользователем/счетчиком, для очень элементарного примера, робот будет (может) не следовать:

<a href="javascript:viewItem(4)">Chicken Farms</a> 

function viewItem(id) 
{ 
    window.location.href = 'www.example.com/items?id=' + id + '&from=userclick'; 
} 

чтобы сделать эти щелчки легче отслеживать, они могли бы дать запрос, такие как

www.example.com/items?id=4&from=userclick 

это поможет вам надежно отслеживать, сколько раз что-то «щелкнули», но она имеет очевидную недостатки, и, конечно, это действительно зависит от w которую вы пытаетесь достичь.

+0

Я предполагал, что большинство/все роботы не следуют JavaScript? Основным недостатком использования этого метода является навязчивый JavaScript и контент, недоступный для пользователей с отключенным JavaScript.Но это может быть легко исправлено с более доступным кодом, а затем с двумя системами отслеживания - посещениями с JavaScript и посещениями БЕЗ. С не роботы, а затем не могут быть отфильтрованы пользователем-агентом ... –

+0

@Peter - нет, они не могут следовать Javascript, и это навязчиво и плохо для SEO. Я просто почувствовал необходимость указать на эту технику, так как я знаю, что разработчики используют ее, чтобы скрывать множество ссылок, чтобы Google не помещал свои страницы как «спамдексы» – karim79

+0

@Peter - ... и я этого не делаю что я :) – karim79

0

Хорошо, что роботы будут использовать определенный пользовательский агент, поэтому вы можете просто игнорировать эти запросы.

Но также, если вы просто используете robots.txt и отказываетесь от посещения; хорошо, что тоже будет работать.

+0

Большинство роботов подчиняются текстам роботов, но другие игнорируют их, я также хочу, чтобы роботы индексировали страницы, но не мои сценарии. Пользовательские агенты также нуждаются в полном листинге и обновлении для обеспечения точности. –

1

Это зависит от того, что вам нужно. Если вы хотите, чтобы поисковые роботы останавливали посещение определенных путей/страниц, вы можете включить их в файл robots.txt. Большинство ботинок, которые ведут себя хорошо, перестанут ударять по ним.

Если вы хотите, чтобы боты индексировали эти пути, но вы не хотите их видеть в своих отчетах, вам нужно реализовать некоторую логику фильтрации. Например. все основные боты имеют очень четкую строку пользовательского агента (например, Googlebot/2.1). Вы можете использовать эти строки для фильтрации этих просмотров из отчетов.

+2

Посмотрите здесь: http://www.useragentstring.com/pages/Crawlerlist/ У них есть хороший список строк пользовательского агента, используемых поисковыми роботами. – DmitryK

+0

Я хочу, чтобы боты посещали все страницы, как обычно, и поэтому пользовательские агенты могут быть самым простым методом фильтрации. http://www.user-agents.org/ - еще один источник, я думаю, что это все еще нуждается в регулярном обновлении и простой способ фильтрации через них. –

0

Не переусердствуйте!

Любой статистический инструмент в настоящий момент фильтрует запрос роботов. Вы можете установить AWSTATS (с открытым исходным кодом), даже если у вас есть общий хостинг. Если вы не собираетесь устанавливать программное обеспечение на своем сервере, вы можете использовать Google Analytics, добавляя только скрипт в конце ваших страниц. Оба решения очень хороши. Таким образом, вам нужно только регистрировать свои ошибки (достаточно 500, 404 и 403).

+0

Я уже использую awstats и Google Analytics, но хочу альтернативных вариантов, так как у Google Analytics есть 1 + дневная задержка в показе статистики, и я хочу отслеживать более конкретную активность, не предоставленную другими инструментами. –

Смежные вопросы