Я занимаюсь очень рудиментарным отслеживанием просмотров страниц, регистрируя URL-адрес, коды рефералов, сеансы, время и т. Д., Но обнаружив, что он бомбардируется роботами (Google, Yahoo и т. Д.). Мне интересно, какой эффективный способ отфильтровать или не регистрировать эти статистические данные?Как отслеживать всю активность сайта и фильтровать данные веб-робота
Я экспериментировал с списками IP-адресов роботов и т. Д., Но это не является надежным.
Есть ли какой-то robots.txt, htaccess, PHP-серверный код, javascript или другой метод (ы), который может «обмануть» роботов или игнорировать взаимодействие с человеком?
Я предполагал, что большинство/все роботы не следуют JavaScript? Основным недостатком использования этого метода является навязчивый JavaScript и контент, недоступный для пользователей с отключенным JavaScript.Но это может быть легко исправлено с более доступным кодом, а затем с двумя системами отслеживания - посещениями с JavaScript и посещениями БЕЗ. С не роботы, а затем не могут быть отфильтрованы пользователем-агентом ... –
@Peter - нет, они не могут следовать Javascript, и это навязчиво и плохо для SEO. Я просто почувствовал необходимость указать на эту технику, так как я знаю, что разработчики используют ее, чтобы скрывать множество ссылок, чтобы Google не помещал свои страницы как «спамдексы» – karim79
@Peter - ... и я этого не делаю что я :) – karim79