Я понимаю, что random_state
используется в различных алгоритмах sklearn, чтобы разбить связь между разными предикторами (деревьями) с таким же значением метрики (например, в GradientBoosting
). Но документация не уточняет и не детализирует это. КакВыбор random_state для алгоритмов sklearn
1) где еще эти семена используются для генерации случайных чисел? Скажем, для RandomForestClassifier
, случайное число может быть использовано для поиска набора случайных функций для построения предиктора. Алгоритмы, использующие подэмплинг, могут использовать случайные числа для получения разных подэмплов. Может/есть одно и то же семя (random_state
), играющее роль в генерации нескольких случайных чисел?
То, что я в основном беспокоит
2), как далеко это эффект этой random_state переменной. ? Может ли значение сделать большую разницу в прогнозировании (классификация или регрессия). Если да, то какие типы данных мне следует уделить больше внимания? Или это скорее стабильность, чем качество результатов?
3) Если это может иметь большое значение, как лучше всего выбрать этот случайный_стат ?. Сложно сделать GridSearch без интуиции. Специально, если набор данных таков, что один CV может занимать час.
4) Если мотив является только устойчивым результатом/оценка моих моделей и перекрестных оценок проверок через повторные запуски, это имеет тот же эффект, если я изложу random.seed(X)
, прежде чем я использовать любого из алгоритмов (и использовать random_state
в Никто).
5) Скажем, я использую значение random_state
в GradientBoosted Classifier, и я перекрестно проверяю, чтобы найти доброту моей модели (подсчитывая каждый раз при проверке). После того, как я удовлетворен, я буду тренировать свою модель на всем тренировочном наборе, прежде чем применять ее на тестовом наборе. Теперь полный набор тренировок имеет больше примеров, чем меньшие учебные наборы в перекрестной проверке. Таким образом, значение random_state
может привести к совершенно другому поведению (выбору функций и индивидуальным предсказателям) по сравнению с тем, что происходило в цикле cv. Точно так же, как и минимальные образцы листьев и т. Д., Также может привести к тому, что утерянная модель теперь будет равна w.r.t количеству экземпляров в CV, а фактическое число экземпляров больше. Это правильное понимание? Каков подход к защите от этого?
Спасибо за ответ Тобиас. Позволяет услышать от еще нескольких людей/экспертов, а затем я отвечу. – Run2