2016-02-29 3 views
0

Мне было интересно, смогу ли я помочь в решении проблемы.Полиномиальная регрессия шумового набора данных

Я создаю инструмент для моей прежней лаборатории, в которой используются данные с компьютера, основанного на физике (много шума), что приводит к простым координатам x, y. Однако я хочу определить локальные максимумы набора данных, так как в наборе есть множество шумов, вы не можете просто проверить наклон между точками, чтобы определить пик.

Чтобы решить эту проблему, я решил использовать полиномиальную регрессию, чтобы несколько «сгладить» набор данных, а затем определить локальные максимумы из полученной модели.

Я пропустил эту ссылку http://scikit-learn.org/stable/auto_examples/linear_model/plot_polynomial_interpolation.html, однако он сообщает только, как создать подходящую модель. Он не говорит вам, есть ли интегрированная метрика, в которой можно измерить лучшую модель. Должен ли я сделать это через квадрат Цзи? Или есть какая-то другая метрика, которая работает лучше или интегрирована в комплект scikit-learn?

Спасибо, продвинутый!

+0

Я бы предложил метод Maximum-Entropie для такой проблемы. – Mehno

ответ

0

Ссылка, представленная эссенциально показывает вам, как построить регрессию хребта поверх полиномиальных функций. Следовательно, это не «плотная подгонка», так как вы можете контролировать его с помощью регуляризации (альфа-параметр) - раньше по параметрам. Теперь, что вы подразумеваете под «лучшей моделью» - существует множество возможных критериев для лучшей регрессии, каждый из которых проверяется по другому критерию. Вам нужно ответить самому себе - какова мера, в которой вас интересует. Должно ли это быть какое-то «золотое соотношение» между гладкостью и близкой пригодностью? Или, может быть, вам нужна модель с большей гладкостью, которая минимизирует некоторую ошибку (среднее квадратное расстояние до точек?)? Еще один пример - проверить, насколько хорошо он захватывает базовый процесс - посредством какой-то типичной проверки (например, проверки перекрестных ссылок и т. Д.), Где вы повторяете построение модели на подмножестве данных и проверяете ошибку на стороне отсечения. Существует много возможных (и вполне действительных!) Подходов - все зависит от точного вопроса, на который вы хотите ответить. «К примеру, лучшая модель» - это не очень хороший вопрос.

Смежные вопросы