2015-12-22 5 views
6

Я занимаюсь анализом физики элементарных частиц и надеялся, что кто-то там может дать мне некоторое представление о подходящем гауссовском процессе, который я пытаюсь использовать для экстраполяции некоторых данных ,Gaussian-Process (scikit-learn) Предсказание Доверие Интервал Странности

У меня есть данные с неопределенностями, что я питаюсь алгоритмом GaussianProcess, изучающим scikit-learn. Я включаю неконтинентами через аргумент «самородок» (моя реализация соответствует a standard example here, где мой «корр» квадрат экспоненциальный, а значения «самородок» установлены на (dy/y) ** 2). Основная проблема заключается в следующем: у меня есть низкая абсолютная неопределенность (но высокая фракционная неопределенность) на краях распределения, и это приводит к прогнозируемому доверительному интервалу, который намного больше, чем я ожидаю в этой области (см. График ниже).

Data point and GP regression

Причина неопределенность ведет себя таким образом, что я имею дело с физикой данных частиц, который представляет собой гистограмму эпизодов наблюдаемых частиц с различными компонентами (х) значениями. Эти подсчеты следуют за распределением Пуассона и, следовательно, имеют неопределенность (стандартное отклонение) sqrt (N). Таким образом, более высокие области отсчета распределения имеют более высокую абсолютную, но более низкую дробную неопределенность, и наоборот для областей с низким счетчиком.

Как я уже говорил, я понимаю, что аргумент «самородка» в этой функции должен иметь значения (дробная неопределенность) ** 2 при работе с квадратным экспоненциальным ядром. Поэтому имеет смысл, что если предсказанная неопределенность основана на дробной неопределенности ввода, которая может быть большой по краям. Но я не совсем понимаю, как это происходит в математике, а размер предсказанной неопределенности SO намного больше, чем неопределенности данных на краях, что кажется мне неправильным.

Может кто-нибудь прокомментировать, что здесь происходит? Это поведение, как ожидалось? Если да, то почему? Любые мысли или ссылки на дальнейшие чтения по этому вопросу будут очень признательны!

Я оставлю вас с парой важных предостережений:

1) Есть несколько точек данных с нулевым счетом в краях распределения. Это порождает излом в дробной неопределенности для «самородка», потому что (sqrt (0)/0) ** 2 не очень радует. Я сделал здесь корректировку, просто установив значение самородка для этих точек равным 1.0, что соответствует значению, которое вы получите, если это счет 1. Я считаю, что это обычное приближение, которое влияет на вопрос, но я не понимаю Не думаю, что это в корне меняет вопрос.

2) Данные, с которыми я работаю, на самом деле являются 2-й гистограммой (т. Е. Одной независимой переменной (допустим, x), другой (y) и подсчетами в качестве зависимой переменной (z)). Показанный график представляет собой 1-й фрагмент 2d-данных и прогнозирования (т. Е. Z vs x, интегрированных в небольшом диапазоне y). Я не думаю, что это действительно затрагивает вопрос, но я думал, что упомянул об этом.

ответ

0

От вас презентация, я подозреваю, что поведение правильное, хотя я не прошел через математику. Мой инстинкт говорит мне: не делайте единой гистограммы. Увеличьте размеры бункера при переходе от центра распределения. Это увеличит ваши значения и уменьшит ваши дробные ошибки.