2015-05-24 3 views
2

В настоящее время я использую cross_validation.cross_val_predict, чтобы получить прогнозы, сделанные классификатором LogisticRegression. Мой вопрос: какой процент данных составляет набор тренировок и какой процент составляет тестовый набор? Разве это 80% -20%?Scikit learn cross validation split

Я проверил сайт и другие вопросы о stackoverflow, но не нашел ответа на мой вопрос.

ответ

1

В documentation for this function, говорится в cv арг:

резюме: генератор кросс-валидации или INT, необязательный, по умолчанию: Нет генератора кросс-проверки для использования. Если int определяет количество складок в StratifiedKFold, если y является двоичным или многоклассовым, а оценщик является классификатором или числом сгибов в KFold в противном случае. Если None, это эквивалентно cv = 3. Этот генератор должен включать все элементы в тестовом наборе ровно один раз. В противном случае повышается значение ValueError.

+0

Да, но они не указывают, какой процент данных попадает в тестовый набор в каждую складку. – user1780104

+0

Нет, я думаю, это так: 1/3rd. –

+0

Хорошо, я думаю, это имеет смысл. То, что я делаю это обычно, но я читал в некоторых местах, что они делают это по-другому. В любом случае, благодарю Вас! – user1780104

Смежные вопросы