2013-02-19 6 views
2

Можете ли вы помочь мне с этими вопросами? Я использую PythonСпособы отбора проб

Методы отбора проб

Sampling (или Монте-Карло) методы формирования общего и полезный набор методов, которые используют случайные числа для извлечения информации о (многомерных) распределений и функций. В контексте статистического машинного обучения мы чаще всего занимаемся отображением выборок из распределений для получения оценок сводной статистики, таких как среднее значение рассматриваемого распределения.

Когда у нас есть доступ к равномерному (псевдо) генератору случайных чисел на единичном интервале (rand в Matlab или runif в R), то мы можем использовать метод выборки преобразования, описанный в разделе Bishop Sec. 11.1.1 для отбора проб из более сложных распределений. Реализация метода преобразования для экспоненциального распределения

$$ P (Y) = \ Lambda \ ехр (- \ лямбда-у), у \ GEQ 0 $$

с использованием выражения, приведенные в нижней части страницы 526 in Bishop: Сэмплирование фрагментов включает увеличение z с дополнительной переменной u, а затем рисование образцов из пространства сустава (z, u).

Важнейшим моментом методов выборки является то, сколько образцов необходимо для получения достоверной оценки количества процентов. Будем говорить, что мы заинтересованы в оценке среднего значения, которое

$$ \ mu_y = 1/\ Lambda $$

в вышеуказанном распределении, затем мы используем выборочное среднее

$$ b_y = \ frac1L \ sum^L_ {\ ell = 1} y (\ ell) $$

L образцов как наша оценка. Поскольку мы можем генерировать столько образцов размера L, сколько хотим, мы можем исследовать, как эта оценка в среднем сходится к истинному среднему значению. Для того, чтобы сделать это правильно, мы должны взять абсолютное ди Ф.Ф. разностного

$$ | \ mu_y - b_y | $$

между истинным средним $ μ_y $ и оценкой $ b_y $ усредненных по многим, скажем, 1000, повторов для нескольких значений $ L $, скажем 10, 100, 1000. Запланируйте ожидаемое абсолютное отклонение как функцию $ L $. Можете ли вы построить какое-то преобразованное значение ожидаемого абсолютного отклонения, чтобы получить более или менее прямую линию и что это значит?

Я новичок в этом обучении статистических машин и действительно не знаю, как реализовать его в Python. Можете ли вы мне помочь?

+0

Некоторые замечания: (1) Похоже, что это было принято прямо из задания. Если это так, мы должны добавить тег [tag: Homeework].(2) Выборка среза для генерации экспоненциальных случайных вариаций кажется странным способом, если вычисление логарифма на вашей машине особенно затруднительно! (Экспоненциальность может быть получена из стандартного однородного в очень прямом виде.) (3) Среднее значение $ b_y $ равномерно неравномерно и имеет известное распределение. $ b_y/\ mu_y $ является ключевой величиной, поэтому вывод легко, оставляя вопрос о том, почему здесь особенно заметно место Монте-Карло. – cardinal

+0

В прошлом году тег домашней работы был устранен. – chepner

+0

@chepner: Мой предыдущий комментарий был сделан до миграции. Этот тег по-прежнему существует (и широко используется) на [stats.SE] (http://stats.stackexchange.com). Приветствия. :) – cardinal

ответ

1

Есть несколько ярлыков, которые вы можете взять. У Python есть встроенные методы для отбора проб, в основном в библиотеке Scipy. Я могу порекомендовать рукопись, которая реализует эту идею в Python (отказ от ответственности: я автор), расположенный here.

Это часть более крупной книги, но эта изолированная глава посвящена более общему закону больших чисел + сходимости, о чем вы говорите. В статье рассматриваются случайные величины Пуассона, но вы должны уметь адаптировать код к своей собственной ситуации.

+0

Большое вам спасибо, это действительно полезно с некоторым кодом вместо уравнений :-) – pythonnewbie

Смежные вопросы