2016-07-19 6 views
0

У меня возникли трудности с пониманием вероятности в проблеме, которую я рассматриваю.Вероятное количество отсутствующих записей

Дано:

  • каждая запись в наборе данных имеет уникальный номер идентификатор транзакции (TXNID)
  • приращение между TXNID предсказуемо на основании времени транзакции (конкретный метод не имеет отношения к проблема)
  • Поскольку постепенное изменение предсказуемо, мы можем определить, отсутствует ли запись между двумя последовательными TXNID. В частности, если разность между двумя последовательными TXNID больше, чем предсказанное дополнительных изменений, то, по крайней мере, одна запись отсутствует
    • Приращение между двумя TXNID всегда является целым числом от 1 до 20 (включительно)
    • равных существует вероятность того, что любое приращение 1 до 20 будет происходить

Где идентифицируется такой разрыв, мы хотим оценить количество недостающих записей.

Например:

Previous TXNID: 100 (given) 
    Current TXNID: 125 (given) 
    Predicted increment: 5 (given) 
    Actual increment: 25 (current - previous) 

Фактический прирост больше прогнозируемого прироста, поэтому мы знаем, что по крайней мере одна запись отсутствует.

Мы также знаем, что одна отсутствующая запись имеет TXNID, равную текущему TXNID - 5. Оценочные записи в оставшемся промежутке являются фокусом проблемы.

Remaining gap: 20 (actual increment - predicted increment) 

Что мы хотим оценить, так это количество недостающих записей в оставшемся промежутке. В этом примере недостающие записи могут состоять из одной записи с приращением 20, 20 записей с приращениями 1 или любой соответствующей комбинации между этими крайними значениями.

20 = 20 x 1 
    ... 
    20 = 1 x 20 

Автор предлагает, что поскольку существует равная вероятность, что каждое приращение TXNID находится в пределах от 1 до 20, 5% (1/20) оставшегося зазора является реалистичной оценкой для числа отсутствующих записей.

Протестировав это очень ограниченным образом, это предположение представляется работой; однако я изо всех сил пытаюсь понять логику, что каждый сценарий имеет равную вероятность.

Я согласен с тем, что у одной записи есть вероятность 1/20 (5%) приращения 20 (сценарий 1 x 20). Но для обратного сценария (20 х 1) не должно быть вероятного соединения? Здесь я не только требую, чтобы приращение одной записи было 1 (вероятность 5%), но и следующие 19 записей также были 1. Следовательно, кажется, что вероятность 20 отсутствующих записей, существующих в оставшемся промежутке, значительно меньше (0,05 ± 20 против 0,05).

Считаю ли я это? Я пропустил точку? Использует ли 5% оставшийся пробел смысл в качестве средства для оценки количества отсутствующих записей?

Благодаря

Andrew

ответ

1

Честно говоря, я бы подойти к проблеме с другой точки зрения. Я бы предположил, что записи поступают от Poisson stream. Таким образом, различия между отчетами распределяются по распределению Пуассона.

Если это так, то вы могли бы оценить параметр Пуассона \lambda и получить оценку, сколько в среднем записей должно быть здесь в любом заданном расстоянии между записями

+0

Это займет немного времени для меня, чтобы понять теорию пуассоновского потока , но в то же время, я думаю, вы ответили частично на мой вопрос: просто применение 5% является неточным. Я отправлю сообщение, когда у меня будет время для более подробного изучения вашего ответа. Спасибо – AWaddington

+0

@AWaddington это на самом деле очень простая вещь - вы делаете другой набор данных с РАЗЛИЧИЯми в идентификаторе транзакции. Поэтому, если у вас есть записи «N» в исходном наборе данных, вы получите записи «N-1» с TXNID_i - TXNID_i-1. Затем вы просто вставьте этот новый набор данных в гистограмму, запишите его и посмотрите, похоже ли это на распределение Пуассона. Если да, тогда вы можете проанализировать это, используя то, что я написал. –

Смежные вопросы