2008-11-28 5 views
1

У нас был отказ ISP в течение примерно 10 минут в один день, что, к сожалению, произошло во время проведенного экзамена, который записывался из нескольких мест.Статистический анализ журналов сервера - правильность экстраполяции

К сожалению, это привело к потере данных обратной передачи для текущей страницы кандидатов.

Я могу восстановить поток событий из журнала сервера. Однако из 317 кандидатов 175 использовали локальный прокси-сервер, а это означает, что все они появляются из одного и того же IP-адреса. Я проанализировал данные из оставшихся 142 (45%) и придумал некоторые хорошие цифры относительно того, что с ними произошло.

Вопрос: Насколько правильно умножать все мои номера на 317/142 для достижения вероятных результатов для всего набора? Каким был бы мой регион (не) уверенность?

Пожалуйста, никаких догадок. Мне нужен тот, кто не заснул в классе статистики, чтобы ответить.

EDIT: по номерам я обращался к подсчетам пострадавших лиц. например, 5/142 показали признаки сбоя браузера во время сеанса. Насколько правильна экстраполяция 11/317 с ошибками браузера?

ответ

2

Я не уверен, какие измерения мы говорим, но пока давайте предположим, что вы хотите что-то вроде среднего балла. Для оценки среднего балла населения (317 кандидатов) не требуется корректировка. Просто используйте среднее значение выборки (142, данные, которые вы проанализировали).

Чтобы найти свою область неопределенности, вы можете использовать формулу, указанную в NIST statistics handbook. Вы должны сначала решить, насколько вы не уверены. Предположим, что вы хотите 95% -ную уверенность в том, что истинное население означает ложь в пределах интервала. Тогда доверительный интервал для истинного населения будет означать:

(выборочное среднее) +/- 1,960 * (выборочное стандартное отклонение)/SQRT (размер выборки)

Есть дополнительные поправки, которые можно внести принять кредит на наличие большой выборки по отношению к населению. Они затянут доверительный интервал примерно на 1/4, но есть много предположений, что приведенный выше расчет делает это уже менее консервативным. Одно из предположений состоит в том, что оценки приблизительно распределены нормально. Другое предположение состоит в том, что образец является представителем популяции. Вы упомянули, что недостающие данные - это все кандидаты, использующие один и тот же прокси. Подмножество населения, которое использовало этот прокси, могло сильно отличаться от остальных.

EDIT: Поскольку мы говорим о пропорции образца с атрибутом, например. «браузер разбился», все немного по-другому. Нам нужно использовать доверительный интервал для пропорции и преобразовать его к нескольким успехам путем умножения на размер популяции. Это означает, что наша лучшая оценка количества разбитых браузеров составляет 5 * 317/142 ~ = 11, как вы предполагали.

Если мы еще раз проигнорируем тот факт, что наш образец составляет почти половину населения, мы можем использовать Wilson confidence interval of a proportion. A calculator is available online для обработки формулы для вас. Вывод калькулятора и формулы - это верхний и нижний пределы для доли в популяции. Чтобы получить диапазон для числа сбоев, просто умножьте верхний и нижний пределы на (размер популяции - размер выборки) и добавьте количество сбоев в выборке. Хотя мы могли бы просто умножить на размер популяции, чтобы получить интервал, это будет игнорировать то, что мы уже знаем о нашей выборке.

Используя приведенную выше процедуру, вы получите 95% C.I. от 7,6 до 19.0 для общего числа сбоев браузера в населении 317, основанных на 5 авариях в 142 точках выборки.

+0

Awesome! Благодарю. – 2008-12-02 17:19:30

Смежные вопросы