Я пытаюсь прекомпретировать распределения нескольких случайных величин. В частности, эти случайные величины являются результатами функций, оцененных в местах в геноме, поэтому для каждого из них будет порядка 10^8 или 10^9 значений. Функции довольно гладкие, поэтому я не думаю, что потеряю много точности, оценивая только на каждом втором/10-м/100-м? базы или около того, но независимо от того, будет ли большое количество образцов. Мой план состоит в том, чтобы предварительно компилировать таблицы (например, процентили) для каждой функции и ссылаться на них при выполнении моей основной программы, чтобы избежать необходимости вычислять статистику распределения в каждом прогоне.Эффективное эмпирическое вычисление/хранение CDF
Но я действительно не вижу, как я могу это сделать: хранение, сортировка и сокращение массива из 10^9 поплавков на самом деле невозможно, но я не могу думать о другом способе, который не потерять информацию о распределении. Есть ли способ измерения квантилей выборочного распределения, который не требует хранения всего этого в памяти?
Я думаю, что у вас может быть больше удачи на http: //stats.stackexchange.com/... – katrielalex 2010-11-23 22:55:59
Сколько переменных? Как «гладкие» функции? Можете ли вы использовать локальные полиномы для интерполяции? – 2010-11-23 23:01:55