2016-07-27 2 views
0

Я пытаюсь выполнить анализ настроений в наборе данных. Но нет существующего корпуса, который может быть обучен моему классификатору, аналогичен набору данных, который я хочу проанализировать. Мой вопрос заключается в следующем: могу ли я использовать выборочное выборочное подмножество этих данных для фаз обучения/валидации, а затем использовать подготовленный классификатор для выполнения анализа в более крупном наборе данных? Я планирую ввести некоторую изменчивость, добавив точки данных к набору тренировок, которые аналогичны набору данных приложения, но не из этого набора. Это действительный подход?Выбор набора для обучения из большего набора приложений

ответ

1

Что вы ищете, это стандартная процедура перекрестной проверки. Во время кросс-валидации вы разбиваете свои данные (предположим) на 80% -20% учебных данных тестирования и делаете 5-10 (в зависимости от размера данных, которые у вас есть) разные расколы. Поэтому я предлагаю вам сохранить подмножество данных, а затем выполнить кросс-валидацию в этом подмножестве. Это оптимальный способ обучения вашей модели.

+0

Спасибо, что ответили. Я думал, что перекрестная проверка будет правильным подходом. Чтобы уточнить, вы предлагаете мне выполнить кросс-проверку на моем подмножестве и использовать остальную часть моих данных как «неизвестный» набор данных, который я бы хотел проанализировать? –

+0

Точно. Не выполняйте кросс-валидации на всем наборе, иначе вы перевернете свою модель. – rpd

+0

Мысль так. Благодаря! –

Смежные вопросы