Я не уверен, какие измерения мы говорим, но пока давайте предположим, что вы хотите что-то вроде среднего балла. Для оценки среднего балла населения (317 кандидатов) не требуется корректировка. Просто используйте среднее значение выборки (142, данные, которые вы проанализировали).
Чтобы найти свою область неопределенности, вы можете использовать формулу, указанную в NIST statistics handbook. Вы должны сначала решить, насколько вы не уверены. Предположим, что вы хотите 95% -ную уверенность в том, что истинное население означает ложь в пределах интервала. Тогда доверительный интервал для истинного населения будет означать:
(выборочное среднее) +/- 1,960 * (выборочное стандартное отклонение)/SQRT (размер выборки)
Есть дополнительные поправки, которые можно внести принять кредит на наличие большой выборки по отношению к населению. Они затянут доверительный интервал примерно на 1/4, но есть много предположений, что приведенный выше расчет делает это уже менее консервативным. Одно из предположений состоит в том, что оценки приблизительно распределены нормально. Другое предположение состоит в том, что образец является представителем популяции. Вы упомянули, что недостающие данные - это все кандидаты, использующие один и тот же прокси. Подмножество населения, которое использовало этот прокси, могло сильно отличаться от остальных.
EDIT: Поскольку мы говорим о пропорции образца с атрибутом, например. «браузер разбился», все немного по-другому. Нам нужно использовать доверительный интервал для пропорции и преобразовать его к нескольким успехам путем умножения на размер популяции. Это означает, что наша лучшая оценка количества разбитых браузеров составляет 5 * 317/142 ~ = 11, как вы предполагали.
Если мы еще раз проигнорируем тот факт, что наш образец составляет почти половину населения, мы можем использовать Wilson confidence interval of a proportion. A calculator is available online для обработки формулы для вас. Вывод калькулятора и формулы - это верхний и нижний пределы для доли в популяции. Чтобы получить диапазон для числа сбоев, просто умножьте верхний и нижний пределы на (размер популяции - размер выборки) и добавьте количество сбоев в выборке. Хотя мы могли бы просто умножить на размер популяции, чтобы получить интервал, это будет игнорировать то, что мы уже знаем о нашей выборке.
Используя приведенную выше процедуру, вы получите 95% C.I. от 7,6 до 19.0 для общего числа сбоев браузера в населении 317, основанных на 5 авариях в 142 точках выборки.
Awesome! Благодарю. – 2008-12-02 17:19:30