0

У меня есть учебный набор данных, который дает мне рейтинг различных игроков в крикет (2008) на основе их эффективности в последние годы (2005-2007).Какой метод прогнозирующего моделирования будет наиболее полезен?

Я должен разработать модель, используя эти данные, а затем применить ее к другому набору данных, чтобы предсказать ранжирование игроков (2012) с использованием данных, уже предоставленных мне (2009-2011).

Какое прогностическое моделирование будет лучше всего подходит для этого? Каковы плюсы и минусы использования разных форм регрессии или нейронных сетей?

ответ

2

Типа модели использования зависит от различных факторов:

  • объема данных: если у вас есть очень мало данных, то лучше сделать выбор в пользу простой модели прогнозирования как линейная регрессия. Если вы используете слишком сильную модель прогнозирования, вы рискуете переопределить свою модель с эффектом, который он плохо влияет на новые данные. Теперь вы можете спросить, что такое маленькие данные? Это зависит от количества входных измерений и от базовых распределений ваших данных.
  • Ваш опыт работы с моделью. Нейронные сети могут быть довольно сложными, если у вас мало опыта с ними. Существует немало параметров для оптимизации, таких как структура сетевого уровня, количество итераций, скорость обучения, момент импульса, просто некоторые из них. Линейное прогнозирование намного проще в обращении по отношению к этому «мета-оптимизации»

Прагматичный подход для вас, если вы все еще не можете выбрать один из методов, было бы оценить несколько различных методов прогнозирования , Вы берете некоторые из своих данных, в которых у вас уже есть целевые значения (данные за 2008 год), разделяйте их на учебные и тестовые данные (например, примерно 10% в качестве тестовых данных), тренируйтесь и проверяйте с помощью кросс-валидации и вычисляйте коэффициент ошибок по сравнивая предсказанные значения с целевыми значениями, которые у вас уже есть.

Одна замечательная книга, которая также находится в Интернете, является Распознавание образов и машинное обучение C. Bishop. У этого есть большой вводный раздел относительно моделей прогнозирования.

1
  1. Какое прогностическое моделирование будет лучше всего подходит для этого? 2. Каковы профи и минусы использования различных форм регрессии или нейронных сетей ?
  1. "Что лучше" зависит от ресурсов, которые вы имеете. Полные байесовские сети (или k-Dependency Bayesian Networks) с теоретико-познаваемыми графиками, являются конечными «безупречными» моделями и часто работают очень хорошо. Сложные нейронные сети могут также впечатляюще работать. Проблема с такими моделями заключается в том, что они могут быть очень дорогостоящими вычислительными, поэтому модели, которые используют методы аппроксимации, могут быть более уместными. Существуют математические сходства, связывающие регрессию, нейронные сети и байесовские сети.

  2. Регрессия на самом деле простая форма нейронных сетей с некоторыми дополнительными предположениями относительно данных. Нейронные сети могут быть сконструированы таким образом, чтобы делать меньше предположений относительно данных, но, как указывает Thomas789, стоит значительно усложнять понимание (иногда монументально трудно отлаживать).

Как правило - чем больше предположений и приближения в модели легче A: понять и B: найти вычислительную мощность необходимо, но потенциально цена исполнения или «переобучение» (это когда модель хорошо подходит для учебных данных, но не экстраполируется на общий случай).

Бесплатные онлайн книги:

http://www.inference.phy.cam.ac.uk/mackay/itila/

http://ciml.info/dl/v0_8/ciml-v0_8-all.pdf

Смежные вопросы