2015-04-30 4 views
0

У меня есть запись, содержащая максимальную и минимальную месячные температуры на конкретной станции. Запись показывает информацию за каждый месяц с января 1908 по март 2012 года. Однако некоторые из значений температуры были заглушены.Какая модель подходит для полусинусоидальных данных?

Sample Data  
    yyyy month tmax tmin 
    1908 January 5.0 -1.4 
    1908 February 7.3 1.9 
    1908 March 6.2 0.3 
    1908 April Missing_1 2.1 
    1908 May Missing_2 7.7 
    1908 June 17.7 8.7 
    1908 July Missing_3 11.0 
    1908 August 17.5 9.7 
    1908 September 16.3 8.4 
    1908 October 14.6 8.0 
    1908 November 9.6 3.4 
    1908 December 5.8 Missing_4 
    1909 January 5.0 0.1 
    1909 February 5.5 -0.3 
    1909 March 5.6 -0.3 
    1909 April 12.2 3.3 
    1909 May 14.7 4.8 
    1909 June 15.0 7.5 
    1909 July 17.3 10.8 
    1909 August 18.8 10.7 

Я хочу узнать пропущенные значения. Какая модель лучше всего подходит для такого рода проблем? Здесь я пытаюсь использовать линейную регрессию MultiVariate. Это правильный подход?

+0

Здесь есть много вариантов. По сути, каждый другой метод вменения соответствует другому предположению о том, как связаны последовательные значения. Вероятно, лучше всего делать явные предположения об этих отношениях и выводить из этого метод; это будет байесовский подход. Помимо этого, пригодны, вероятно, местные регрессионные методы, такие как LOWESS и гауссовская регрессия процесса. Регрессия GP на самом деле довольно проста и может давать неопределенность для каждого значения, а также для точечной оценки. Веб-поиск любого из этих условий должен вызывать множество обращений. –

ответ

0

Это эмпирический вопрос. Линейная регрессия является хорошей отправной точкой. Если данные имеют нелинейную форму, вы можете обнаружить, что преобразование функций/выходов позволяет вам соответствовать линейной модели.

Я предлагаю вам что-то придумать и использовать перекрестные проверки для записей с текущими значениями. Используйте это, чтобы улучшить свой метод. Если разумно предположить, что пропущенные значения имеют то же распределение, что и текущие значения (т. Е. Отсутствуют какие-либо систематические отклонения, такие как неисправность оборудования при экстремальных температурах, в отсутствующих значениях), то перекрестная проверка достоверности должна быть разумным способом судить качество вашего отсутствующего вменения данных.

Смежные вопросы