2016-12-08 5 views

ответ

1

В разработке учебной машины вы хотите разделить ваши доступные данные в поезде/тестовые наборы и, если возможно, дополнительный набор проверки. Вы делаете это, чтобы проверить переназначение и обеспечить, чтобы ваша модель была обобщаемой для невидимых наблюдений. Окончательный набор валидаций часто бывает полезен, потому что, не зная об этом, часто пользователи будут пытаться оптимизировать свои параметры на точности тестового раздела, и при этом в основном дают подсказки модели того, что это за данные. Набор проверки полезен для проверки того, что это не произошло, и ваша модель не переделана.

С учетом только кода, train_features, вероятно, соответствует фактическим данным, используемым для разработки модели, в разделе поездов. Этикетки - это категории, которые вы пытаетесь предсказать.

Тестовый раздел - это просто случайный образец ваших доступных данных. Характеристики/метки те же, что и выше.

Вы хотите построить модель данных обучения и оценить точность тестового раздела.

Sebastian Rascka представляет собой прекрасный обзор машинного обучения на питоне. Образцы кода и некоторые пояснения можно найти по адресу: https://github.com/rasbt/python-machine-learning-book/tree/master/code

Смежные вопросы