Как анализировать веб-трафик статистически корректно?

У меня есть файл с последовательностью меток времени событий, соответствующего время, в котором кто-то посещает веб-сайт:Как анализировать веб-трафик статистически корректно?

02.02.2010 09:00:00 
02.02.2010 09:00:00 
02.02.2010 09:00:00 
02.02.2010 09:00:01 
02.02.2010 09:00:03 
02.02.2010 09:00:05 
02.02.2010 09:00:06 
02.02.2010 09:00:06 
02.02.2010 09:00:09 
02.02.2010 09:00:11 
02.02.2010 09:00:11 
02.02.2010 09:00:11

и т.д., для нескольких тысяч строк.

Я хотел бы получить представление о том, как веб-хиты распространяются со временем, в течение недели и т. Д. Мне нужно знать, как я должен масштабировать (будущие) веб-серверы, чтобы гарантировать доступность сервиса с заданным номером из девяти. В частности, мне нужно дать верхние оценки числа почти параллельных визитов.

Есть ли какие-либо ресурсы, которые объясняют, как это сделать? Я свободно владею математикой и статистикой, и я посмотрел на теорию массового обслуживания, но, похоже, эта теория предполагает, что скорость прибытия не зависит от времени суток, что явно неверно в моем случае. И НЕТ, гистограммы не являются правильным ответом, так как результат сильно зависит от ширины и размещения бункера.

источник

2010-02-17 lindelof

Ну, подготовить себя для всей партии 'что случилось с AWStats/Webalizer/Analog-статистика/любимая-HTTP-LOG-статистика-зритель-оф-месяц' ответы ...

Они все делают гистограммы, но это потому, что они предназначены для того, чтобы помочь получить общую картину посещаемости посетителей.

Я рекомендую вам взглянуть на Splunk, чтобы узнать, соответствует ли оно вашим требованиям.

источник

2010-02-17 09:22:59 ChrisGNZ

Если вы не хотите использовать гистограмму, можете ли вы просто рассчитать плотность ядра?

источник

2010-02-17 09:35:42 Jack

Можно ли определить или приблизительные визиты почти одновременно, как те, что происходят в одну секунду? Если да, вот как я буду продолжать:

За каждую секунду в данных рассчитывается количество посещений. Это будет включать несколько секунд с 0 посещениями - не исключайте их.
Возможно, разумно предположить, что количество посещений в секунду имеет распределение Пуассона со скоростью, которая изменяется в течение дня и, возможно, в течение недели. Итак, решите, каковы соответствующие предиктора (время суток, день недели, месяц?) И используйте регрессию Пуассона для моделирования подсчетов. Вы можете использовать сплайны для непрерывных переменных (например, время суток), я считаю, что есть даже некоторые «циклические» сплайны, которые могут принимать во внимание, что 23:58 PM приближается к 00:02 AM. Или вы можете сократить время на более мелкие отдельные части, скажем, 10-минутные интервалы. Если вы хотите быть действительно фантазией, включите автокорреляцию и переопределение в модели.
На основе модели, вы можете оценить, какой процентный показатель вы хотите.

Конечно, это довольно странно статистически, и вы должны знать, что делаете, но я думаю, что это может сработать.

источник

2010-02-17 21:29:06 Aniko

Вы всегда можете разместить более гибкую модель по параметру скорости поступления. Например, сделайте скорость прибытия функцией времени или поместите на нее некоторую модель стиля временного ряда. Независимо от ваших данных. В литературе обычно основное внимание уделяется базовой модели, поскольку расширения являются специфичными для приложений.

В расширенной модели вы почти наверняка захотите использовать байесовские методы. Вас интересует заднее предсказательное распределение объекта «почти параллельные события»."В недавней работе в ДЖАСЕ описывает почти точное проблему, применяется для вызова центра данных:.

Bayesian Forecasting of an Inhomogeneous Poisson Process With Applications to Call Center Data

Для быстрого решения, не стоит недооценивать силу оценок гистограммы стиля Они просты непараметрические оценки, и вы можете перекрестно проверять параметры настройки, такие как ширина бинарности и место размещения. Теоретически это несколько неудовлетворительно, но для реализации потребуется целый день. Вероятно, полностью доминирует байесовский подход, но при значительных вычислительных затратах.

источник

2010-02-18 00:46:11 Tristan

Вы, re right, большая часть theo ry принимает Poisson distribution хитов, которых у вас нет, потому что скорость просмотров зависит от времени суток. Однако вы не могли бы расслоить свои данные, скажем, на один блок за каждый час дня, и предположить, что в течение одного часа распределение обращений в секунду/минуту/независимо от того, что единица приблизительно соответствует Пуассону? Есть, вероятно, лучшие способы (с теоретической точки зрения), но этот способ имеет то преимущество, что его просто реализовать и просто объяснить любому, кто имеет какой-либо статистический фон.

источник

2010-02-18 14:42:25 dsimcha

Я думаю, вы можете утверждать, что ваши хиты распределены в соответствии с poisson distribution, где среднее значение и вариации меняются в зависимости от времени суток.

Чтобы получить представление о пиковой нагрузке, я бы начал использовать только диаграмму рассеяния со временем удара по горизонтальной оси и временем между этим ударом и следующим ударом по вертикальной оси.

Это должно дать вам представление о высоте и продолжительности ваших пиков. Тогда вы можете estimate the parameters распределения пуассонов для скользящего окна длиной, подобной той длительности, для каждого момента дня. Похоже на скользящую среднюю. Область, в которой среднее значение и дисперсия являются самыми низкими, даст вам хорошую основу для оценки ожидаемой будущей максимальной нагрузки.

источник

2010-02-19 10:53:56

Как анализировать веб-трафик статистически корректно?

ответ

Смежные вопросы