Итак, вот моя проблема. Мы рассматриваем покупку набора данных от компании для увеличения нашего существующего набора данных. Для целей этого вопроса предположим, что этот набор данных занимает места с органическим числом (что означает, что число, присвоенное одному месту, не имеет отношения к числу, присвоенному другому). Технический диапазон от 0 до бесконечности, но из наборов образцов, которые я видел, это от 0 до 70. Исходя из выборки, это, безусловно, не равномерное распределение (из 10 000, возможно, 5 мест со счетом более 40, 50 со счетом более 10 и 1000 со счетом более 1). Прежде чем мы решим купить этот набор, мы хотели бы имитировать его, чтобы мы могли видеть, насколько он может быть полезен.Генерировать случайные числа с вероятностным распределением
Итак, чтобы имитировать это, я думал о создании случайного числа для каждого места (около 150 000 случайных чисел). Но я также хочу придерживаться духа данных и держать распределение относительно одинаковым (или, по крайней мере, достаточно близким). Я весь день ломаю голову, пытаясь придумать, как это сделать, и опустел.
Одна мысль, которая у меня была, заключалась в том, чтобы квадрат случайного числа (между 0 и sqrt (70)). Но это будет стоить не менее 1 и более.
Я думаю, что он действительно должен быть гиперболическим в первом квадранте ... Я просто задумываюсь о том, как превратить линейное, равномерное распределение случайных чисел в гиперболическое распределение (если гиперболический - это даже то, что я хочу в первую очередь).
Любые мысли?
Таким образом, чтобы подвести, вот распределение Я хотел бы (приблизительно):
- 40 - 70: 0,02% - 0,05%
- 10 - 40: 0,5% - 1%
- 1 - 10: 10% - 20%
- 0 - 1: Остаток (78,95% - 89,48%)
Я нашел этот Статистический глоссарий [http://www.stats.gla.ac.uk/steps/glossary/probability_distributions.html#cdf]. Это может помочь. – IAbstract
Я не совсем понимаю. У вас есть 10 000 чисел с плавающей запятой между 0 и 70, которые вы хотите распределить по 150k? –
@Jonas Elfström: Ну, наоборот. Я хочу создать 150k случайных чисел с плавающей запятой с указанным дистрибутивом ... – ircmaxell