2015-03-19 7 views
1

Здравствуйте, моя проблема больше связана с проверкой модели. Я сделал программу в netlogo, которую я собираюсь использовать в отчете для моей диссертации, но теперь вопрос в том, сколько повторений (симуляций) мне нужно сделать для оправдания моих результатов? Я уже прочитал некоторые методы, использующие статистический подход, и мои коллеги предложили мне несколько полезных математических операций, но я также хочу знать, у людей, которые работают с вычислительными моделями, какой статистический тест или математический метод использовали для этого.Сколько симуляций нужно делать?

ответ

1

Не уверен, что именно то, что вы имеете в виду, но, может быть, вы можете проверить книги Гесте и Tishbiani

http://web.stanford.edu/~hastie/local.ftp/Springer/OLD/ESLII_print4.pdf

специально разделы, посвященные методам передискретизации (Cross-Validation и начальной загрузки).

У них также есть более короткая книга, которая охватывает возможные соответствующие методы для вашего случая вместе с командами в R, чтобы запустить это. Однако эта книга, насколько я знаю, не является бесплатной.

http://www.springer.com/statistics/statistical+theory+and+methods/book/978-1-4614-7137-0

Кроме того, может возмущать начальные условия, чтобы видеть вас результат не меняется после малых возмущений начальных условий или параметров. В более широком масштабе иногда вы можете разбить пространство параметров относительно конечного состояния системы.

2

Это два аспекта (1) Сколько комбинаций параметров (2) Сколько выполняется для каждой комбинации параметров.

(1) Как правило, вы проводите эксперименты, в которых вы меняете некоторые ваши значения входных параметров и смотрите, как изменяется выход модели. В качестве примера возьмем известную модель сегрегации Шеллинга, вы измените значение допуска и посмотрите, как влияет индекс сегрегации. В этом случае вы можете варьировать допуск от 0 до 1 на 0,01 (если вы хотите дискретно), или вы можете просто взять 100 различных случайных значений в диапазоне [0,1]. Это вопрос экспериментального дизайна и полностью зависит от того, насколько хорошо вы хотите изучить пространство параметров.

(2) Для каждого экспериментального значения вам также необходимо запустить несколько симуляций, чтобы вы могли вычислять среднее значение и уменьшать влияние случайности в прогоне моделирования. Например, скажем, вы запустили модель со значением 3 для вашего входного параметра (что бы это ни значило) и получили результат 125. Откуда вы знаете, является ли «реальный» ответ 125 или что-то еще. Если вы запустили его 10 раз и получили 10 разных номеров в диапазоне от 124,8 до 125,2, то 125 не является необоснованной оценкой. Если вы запустили его 10 раз и получили номера от 50 до 500, то 125 не является полезным результатом для отчета.

Количество прогонов для каждого набора экспериментов зависит от изменчивости результата и вашего допуска. Даже 124,8 до 125,2 не полезно, если вы хотите оценить до 1 десятичной точки. Посмотрите «стандартную ошибку среднего» в любом учебнике статистики. В основном, если вы выполняете N прогонов, то доверительный интервал 95% для результата - это среднее значение результатов для ваших N пробегов плюс/минус 1,96 x стандартное отклонение результатов/sqrt (N). Если вам нужен более узкий доверительный интервал, вам нужно больше прогонов.

Другое дело, что если вы ищете отношения по пространству параметров, вам нужно меньше пробегов в каждой точке, чем если бы вы пытались сделать точечную оценку результата.

+0

Несколько штук для выбора: 1) Даже при большой дисперсии среднее разумно сообщать * вместе с пределом погрешности *, если это симметричное распределение. 2) 1.96 происходит из нормального распределения, вместо этого используйте распределение ученика-t, когда вы оцениваете дисперсию. 3) Ваш последний абзац справедлив только в том случае, если вы готовы принять однородную дисперсию. Многие системы реального времени и моделируемые системы, такие как системы массового обслуживания, имеют гетерогенные дисперсии. – pjs

+0

Да и нет. Для 1) я имел в виду «тогда ТОЛЬКО 125 - не полезный результат для отчета» - дело в том, что может потребоваться дополнительная информация, и я думаю, что то же самое, что вы делаете. Для 2) независимо от формы лежащего в основе распределения * распределение среднего * выборок из этого распределения является приблизительно нормальным (центральная предельная теорема). Не совсем уверен, как t-распространение поможет в любом случае, это для небольших образцов, а не ненормальных. – JenB

+0

CLT говорит, что распределение * образца * означает сходимость к нормальности, так как размер выборки доходит до бесконечности (пока дисперсия конечна). Недопустимо предположить, что среднее значение небольшого числа наблюдений является нормальным, если основное распределение не является нормальным. И даже тогда, если вам нужно оценить дисперсию, результаты следуют за распределением ученика-t, а не нормальным. Вот почему [Gossett] (https://en.wikipedia.org/wiki/William_Sealy_Gosset) получил Student's-t, он работал на пивоваренных заводах Guinness в области контроля качества и обнаружил, что нормальные квантилисты дали неверные результаты. – pjs

0

1) Количество симуляций для каждой установки параметров может быть определено путем изучения коэффициента вариации Cv = s/u, здесь s и u являются стандартным отклонением и средним результатом соответственно. Это подробно объясняется в этой статье Coefficient of variance.

2) Моделирование, в котором изменяются параметры, может быть проанализировано с использованием нескольких методов, проиллюстрированных в статье Testing methods.

Эти документы содержат скрупулезные методы анализа и ссылаются на другие документы, которые могут иметь отношение к вашему вопросу и вашим исследованиям.

Смежные вопросы