2010-02-17 2 views
2

У меня есть файл с последовательностью меток времени событий, соответствующего время, в котором кто-то посещает веб-сайт:Как анализировать веб-трафик статистически корректно?

02.02.2010 09:00:00 
02.02.2010 09:00:00 
02.02.2010 09:00:00 
02.02.2010 09:00:01 
02.02.2010 09:00:03 
02.02.2010 09:00:05 
02.02.2010 09:00:06 
02.02.2010 09:00:06 
02.02.2010 09:00:09 
02.02.2010 09:00:11 
02.02.2010 09:00:11 
02.02.2010 09:00:11 

и т.д., для нескольких тысяч строк.

Я хотел бы получить представление о том, как веб-хиты распространяются со временем, в течение недели и т. Д. Мне нужно знать, как я должен масштабировать (будущие) веб-серверы, чтобы гарантировать доступность сервиса с заданным номером из девяти. В частности, мне нужно дать верхние оценки числа почти параллельных визитов.

Есть ли какие-либо ресурсы, которые объясняют, как это сделать? Я свободно владею математикой и статистикой, и я посмотрел на теорию массового обслуживания, но, похоже, эта теория предполагает, что скорость прибытия не зависит от времени суток, что явно неверно в моем случае. И НЕТ, гистограммы не являются правильным ответом, так как результат сильно зависит от ширины и размещения бункера.

ответ

0

Ну, подготовить себя для всей партии 'что случилось с AWStats/Webalizer/Analog-статистика/любимая-HTTP-LOG-статистика-зритель-оф-месяц' ответы ...

Они все делают гистограммы, но это потому, что они предназначены для того, чтобы помочь получить общую картину посещаемости посетителей.

Я рекомендую вам взглянуть на Splunk, чтобы узнать, соответствует ли оно вашим требованиям.

0

Если вы не хотите использовать гистограмму, можете ли вы просто рассчитать плотность ядра?

0

Можно ли определить или приблизительные визиты почти одновременно, как те, что происходят в одну секунду? Если да, вот как я буду продолжать:

  1. За каждую секунду в данных рассчитывается количество посещений. Это будет включать несколько секунд с 0 посещениями - не исключайте их.
  2. Возможно, разумно предположить, что количество посещений в секунду имеет распределение Пуассона со скоростью, которая изменяется в течение дня и, возможно, в течение недели. Итак, решите, каковы соответствующие предиктора (время суток, день недели, месяц?) И используйте регрессию Пуассона для моделирования подсчетов. Вы можете использовать сплайны для непрерывных переменных (например, время суток), я считаю, что есть даже некоторые «циклические» сплайны, которые могут принимать во внимание, что 23:58 PM приближается к 00:02 AM. Или вы можете сократить время на более мелкие отдельные части, скажем, 10-минутные интервалы. Если вы хотите быть действительно фантазией, включите автокорреляцию и переопределение в модели.
  3. На основе модели, вы можете оценить, какой процентный показатель вы хотите.

Конечно, это довольно странно статистически, и вы должны знать, что делаете, но я думаю, что это может сработать.

2

Вы всегда можете разместить более гибкую модель по параметру скорости поступления. Например, сделайте скорость прибытия функцией времени или поместите на нее некоторую модель стиля временного ряда. Независимо от ваших данных. В литературе обычно основное внимание уделяется базовой модели, поскольку расширения являются специфичными для приложений.

В расширенной модели вы почти наверняка захотите использовать байесовские методы. Вас интересует заднее предсказательное распределение объекта «почти параллельные события»."В недавней работе в ДЖАСЕ описывает почти точное проблему, применяется для вызова центра данных:.

Для быстрого решения, не стоит недооценивать силу оценок гистограммы стиля Они просты непараметрические оценки, и вы можете перекрестно проверять параметры настройки, такие как ширина бинарности и место размещения. Теоретически это несколько неудовлетворительно, но для реализации потребуется целый день. Вероятно, полностью доминирует байесовский подход, но при значительных вычислительных затратах.

0

Вы, re right, большая часть theo ry принимает Poisson distribution хитов, которых у вас нет, потому что скорость просмотров зависит от времени суток. Однако вы не могли бы расслоить свои данные, скажем, на один блок за каждый час дня, и предположить, что в течение одного часа распределение обращений в секунду/минуту/независимо от того, что единица приблизительно соответствует Пуассону? Есть, вероятно, лучшие способы (с теоретической точки зрения), но этот способ имеет то преимущество, что его просто реализовать и просто объяснить любому, кто имеет какой-либо статистический фон.

0

Я думаю, вы можете утверждать, что ваши хиты распределены в соответствии с poisson distribution, где среднее значение и вариации меняются в зависимости от времени суток.

Чтобы получить представление о пиковой нагрузке, я бы начал использовать только диаграмму рассеяния со временем удара по горизонтальной оси и временем между этим ударом и следующим ударом по вертикальной оси.

Это должно дать вам представление о высоте и продолжительности ваших пиков. Тогда вы можете estimate the parameters распределения пуассонов для скользящего окна длиной, подобной той длительности, для каждого момента дня. Похоже на скользящую среднюю. Область, в которой среднее значение и дисперсия являются самыми низкими, даст вам хорошую основу для оценки ожидаемой будущей максимальной нагрузки.

Смежные вопросы