2010-03-23 2 views
1

После озадачен более ранним quesiton: SO google-analytics-domain-data-without-filteringОсновные аналитики сайта не совпадает с данными Google

Я экспериментировал с очень простой системой аналитики моей собственной.

MySQL таблицы:

hit_id, subsite_id, timestamp, ip, url 

subsite_id давайте мне перейти к папке (как описано в предыдущем вопросе).

теперь я могу получить следующие показатели:

  • Page Views - Группировать по subsite_id и дате
  • Unique Page Views - сгруппированных по subsite_id, дата, URL, IP (не nesecarily как Google делает это!)
  • Обычными «самый посещаемые страницы», «вероятно, время для посещения» и т.д. и т.п.

Я теперь по сравнению мои данные, что в Google Analytics и обнаружил, что Google га s нижние значения каждой метрики. Т.е., моя собственная настройка подсчитывает больше хитов, чем Google.

Итак, я начал дисконтировать IP-адреса от различных веб-сканеров Google, Yahoo & Dotbot пока.

Коротких вопросы:

  1. Стоит ли мне сопоставляя список все основного гусеничной скидки, является любого списка, вероятно, регулярно менять?
  2. Есть ли другие очевидные фильтры , что Google будет применять данные GA ?
  3. Какие еще данные вы бы получили , которые могут быть полезными далее вниз по линии?
  4. Какие переменные содержит Google использует для выхода ключевые слова для поиска на сайте?

Данные будут использоваться только для нашей собственной системы ранжирования подсайтов, но я хотел бы показать своим пользователям некоторые основные данные (просмотры страниц, наиболее популярные страницы и т. Д.) Для их ссылки.

+0

Я обнаружил, что аналитика Google занимает иногда 6 часов или более, чтобы сообщить о материалах (это было пару лет назад, может быть, это было быстрее?). Может ли это объяснить ваше несоответствие? Плюс я не думаю, что они отображают вещи в моем часовом поясе. – mlsteeves

+0

Hi mlsteeves, да, есть задержка, но я специально использовал данные с прошлой недели. Спасибо за ваш комментарий. –

+0

Каков источник ваших данных? Журналы сервера? – doug

ответ

0

Недостаток отчетности на стороне клиента по сравнению с серверными устройствами является обычным результатом этих сравнений.

Вот как я пытался примирить несоответствие, когда я пришел через эти исследования:

Источники

данные, записанные в сборе на стороне сервера, но не на стороне клиента:

  • хитов от мобильные устройства, которые не поддерживают javascript (это, вероятно, значительный источник несоответствия между двумя коллекциями techni Ques - например, 7 января comScore study показал, что 19% из Великобритании пользователей Интернета доступ в Интернет с мобильного устройства)

  • хиты от пауков, ботами (которые вы уже упоминалось)

Источники данных/События, сбор на стороне сервера имеет тенденцию к записи с большей точностью (намного меньше ложных негативов), по сравнению с теги JavaScript страницы:

  • хиты от пользователей за брандмауэров, особенно корпоративных межсетевых экранов - брандмауэры блокируют страницу тег, плюс некоторые настроены на отклонить/удалить кук.

  • хиты от пользователей, которые отключил JavaScript в браузере --five процентов, в соответствии с W3C Data

  • хиты от пользователей, которые выхода страницы , прежде чем он загружает. Опять же, это больший источник несоответствия, чем вы может подумать. Наиболее часто цитируемые study в поддержки этого было проведено Stone Temple Consulting, который показал, что разницы в уникальных посетителях трафика между двумя одинаковыми сайтами сконфигурированных с одной и теми же сетями систем аналитика, но отличалось только в что JS код отслеживания был помещен в нижней страниц в одном сайте, и в верхней части страницы в другой - был 4,3%


FWIW, вот схема я использую, чтобы удалить/идентифицировать пауков, ботов и т.д .:

  1. монитор запросы о наших роботов.TXT файла: то, конечно, фильтр все другие запросы же IP-адрес + агент пользователя (не все пауков будут просить robots.txt о конечно, но с крохотной ошибкой, любого запрос на этот ресурс вероятно боты.

  2. сравнить агента и IP-адреса пользователей против опубликованных списков: iab.net и user-agents.org публикует два списки, которые кажутся наиболее широко используется для этой цели

  3. анализ рисунка: здесь нет ничего сложного; мы смотрим на (i) виды страниц как функция времени (т. Е. Нажимаем на много ссылок с 200 мс на каждую стр.); (ii) путь , который «пользователь» проходит через сайт, является систематическим и полным или почти так (например, следуя алгоритму обратного слежения ); и (iii) точные посещения (например, 3 часа ночи каждый день).

+0

Спасибо за деталь doug. –

1

Многие люди блокируют Google Analytics по соображениям конфиденциальности.

+0

Интересно! Я сомневаюсь, что это большая часть нашего трафика. Это определенно не техническое сообщество. –

+0

Для установки AdBlock в Firefox требуется около 2 секунд, техническое сообщество не требуется. Это блокирует Google Analytics по умолчанию. – mxmissile

+0

Большинство моих пользователей не слышали об Firefox, понятия не имеют, что «устанавливает» что-то, и, конечно же, не будет знать, что сделает AdBlock или как его получить. Это 90% Internet Explorer прямо из коробки. Но я принимаю вашу точку :) –

0

Самые большие причины, по которым пользователи должны иметь JavaScript и загружать всю страницу, поскольку код часто находится в нижнем колонтитуле. Awstars, другие серверные решения, подобные вашим, получат все. Кроме того, аналитика действительно хорошо справляется с определением ботов и скребков.