2015-04-18 3 views
3

мне нужно создать укладчик ансамбль, я объединить каждый обобщенный процент выхода точности от каждого классификатора с новым классификаторомR - Как создать ансамбль укладчика?

NBayes

Result = 0.61% accuracy 

К-НН (к = 5)

Result = 0.63% accuracy 

К-НН (к = 10)

Result = 0.64% accuracy 

Дерево решений

Result = 0.60% accuracy 

логистическая регрессия

Result = 0.62% accuracy 

классифицировать эти 5 процентов?

или мне нужно объединить вывод многих прогнозов , например. что-то вроде таблицы:

NB k = 5 k = 10 dectree Logistic TrueLabel  
bob 1  1  bob  FALSE  bob 
bob 2  2  john  TRUE  john 
bob 1  1  bob  TRUE  bob 

если так, то это имеет значение, если выходы разные т.е. все должны они быть или боб или джон вместо истинной или ложной или 1 или 2?

какой классификатор я должен использовать для их комбинирования?

ответ

1

Для того, чтобы создать штабелирования ансамбль вам нужно использовать таблицу, созданную в конце вашего вопроса есть это:

NB k = 5 k = 10 dectree Logistic TrueLabel  
bob 1  1  bob  FALSE  bob 
bob 2  2  john  TRUE  john 
bob 1  1  bob  TRUE  bob 

Ответ на «должны все быть боб или джон вместо истинного или ложного или 1 или 2? заключается в том, что это зависит от модели, которую вы будете использовать для объединения отдельных моделей. Большинство моделей в r работают с факторами, и в этом случае их оставлять как можно лучше. Убедитесь, что ваш первый и второй столбцы (с числовыми значениями) также рассматриваются как факторы, в противном случае они будут рассматриваться как числа, и вы не хотите этого (многие модели будут создавать фиктивные переменные из фактора и если ваш столбец является числовым, тогда этого не произойдет). Подводя итог этим факторам использования для всех вышеупомянутых столбцов, но прочитайте документацию по комбинированной модели (информация об этом позже), чтобы увидеть, принимает ли она факторы в качестве входных данных.

Для другого вопроса о том, какую модель вам нужно использовать для комбинирования входов, ответ: 'любая модель вам нравится'. Обычная практика заключается в использовании простой логистической регрессии, но это не мешает вам выбирать что-либо еще, что вам нравится. Идея состоит в том, чтобы использовать исходные переменные (те, которые вы использовали для обучения отдельных моделей), плюс приведенную выше таблицу (т. Е. Предсказания отдельных моделей) и посмотреть, будет ли новая точность лучше, чем отдельные. В новой комбинированной модели вы по-прежнему можете использовать методы устранения элементов, такие как выбор вперед или назад, чтобы удалить незначительные переменные.

Надеюсь, это ответит на ваши вопросы.

+0

Большое вам спасибо. –

+0

Добро пожаловать, Бен! Очень рад, что я мог бы помочь :) – LyzandeR

Смежные вопросы