У меня возникли трудности с пониманием вероятности в проблеме, которую я рассматриваю.Вероятное количество отсутствующих записей
Дано:
- каждая запись в наборе данных имеет уникальный номер идентификатор транзакции (TXNID)
- приращение между TXNID предсказуемо на основании времени транзакции (конкретный метод не имеет отношения к проблема)
- Поскольку постепенное изменение предсказуемо, мы можем определить, отсутствует ли запись между двумя последовательными TXNID. В частности, если разность между двумя последовательными TXNID больше, чем предсказанное дополнительных изменений, то, по крайней мере, одна запись отсутствует
- Приращение между двумя TXNID всегда является целым числом от 1 до 20 (включительно)
- равных существует вероятность того, что любое приращение 1 до 20 будет происходить
Где идентифицируется такой разрыв, мы хотим оценить количество недостающих записей.
Например:
Previous TXNID: 100 (given)
Current TXNID: 125 (given)
Predicted increment: 5 (given)
Actual increment: 25 (current - previous)
Фактический прирост больше прогнозируемого прироста, поэтому мы знаем, что по крайней мере одна запись отсутствует.
Мы также знаем, что одна отсутствующая запись имеет TXNID, равную текущему TXNID - 5. Оценочные записи в оставшемся промежутке являются фокусом проблемы.
Remaining gap: 20 (actual increment - predicted increment)
Что мы хотим оценить, так это количество недостающих записей в оставшемся промежутке. В этом примере недостающие записи могут состоять из одной записи с приращением 20, 20 записей с приращениями 1 или любой соответствующей комбинации между этими крайними значениями.
20 = 20 x 1
...
20 = 1 x 20
Автор предлагает, что поскольку существует равная вероятность, что каждое приращение TXNID находится в пределах от 1 до 20, 5% (1/20) оставшегося зазора является реалистичной оценкой для числа отсутствующих записей.
Протестировав это очень ограниченным образом, это предположение представляется работой; однако я изо всех сил пытаюсь понять логику, что каждый сценарий имеет равную вероятность.
Я согласен с тем, что у одной записи есть вероятность 1/20 (5%) приращения 20 (сценарий 1 x 20). Но для обратного сценария (20 х 1) не должно быть вероятного соединения? Здесь я не только требую, чтобы приращение одной записи было 1 (вероятность 5%), но и следующие 19 записей также были 1. Следовательно, кажется, что вероятность 20 отсутствующих записей, существующих в оставшемся промежутке, значительно меньше (0,05 ± 20 против 0,05).
Считаю ли я это? Я пропустил точку? Использует ли 5% оставшийся пробел смысл в качестве средства для оценки количества отсутствующих записей?
Благодаря
Andrew
Это займет немного времени для меня, чтобы понять теорию пуассоновского потока , но в то же время, я думаю, вы ответили частично на мой вопрос: просто применение 5% является неточным. Я отправлю сообщение, когда у меня будет время для более подробного изучения вашего ответа. Спасибо – AWaddington
@AWaddington это на самом деле очень простая вещь - вы делаете другой набор данных с РАЗЛИЧИЯми в идентификаторе транзакции. Поэтому, если у вас есть записи «N» в исходном наборе данных, вы получите записи «N-1» с TXNID_i - TXNID_i-1. Затем вы просто вставьте этот новый набор данных в гистограмму, запишите его и посмотрите, похоже ли это на распределение Пуассона. Если да, тогда вы можете проанализировать это, используя то, что я написал. –