2014-01-14 3 views
-1

Предположим, что аналитик по данным, работающий в страховой компании, попросил построить прогностическую модель для прогнозирования того, будет ли клиент покупать мобильный страховой полис. Он/она попробовал классификатор kNN с различным количеством соседей (k = 1,2,3,4,5). Он/она получил следующие F-баллы, измеренные по данным обучения: (1,0; 0,92; 0,90; 0,85; 0,82). Исходя из этого, аналитик решил развернуть kNN с k = 1. Это был хороший выбор? Как бы вы выбрали оптимальное количество соседей в этом случае?Data Mining Классификатор KNN

+2

Как бы то ни было, это выглядит как домашнее задание – goncalopp

+0

@ user3195317 Это может быть на поздней неделе, но * ТАК НЕ ПОЛУЧИТСЯ, ЧТОБЫ ПОЛУЧИТЬ ДОМУ! * Пожалуйста, не делайте этого! Прочитайте * Как спросить страницу * в следующий раз! –

+0

@ user3195317 Если вы улучшите свой вопрос в соответствии с рекомендациями, и я думаю, что он может * заслужить ответ. В следующий раз, когда вы зададите вопрос, не просто игнорируйте правила. Благодарю. –

ответ

2

Не рекомендуется выбирать параметр алгоритма прогнозирования, используя весь набор тренировок, поскольку результат будет смещен в сторону этого конкретного набора тренировок и не имеет информации об эффективности обобщения (т. Е. Производительности по отношению к невидимым случаям). Вы должны применить метод перекрестной проверки, например. 10-кратная перекрестная проверка для выбора наилучшего K (то есть K с наибольшим значением F) в пределах диапазона. Это включает в себя разделение ваших данных обучения на 10 равных частей, удерживающих 9 частей для обучения и 1 для проверки. Итерации, чтобы каждая часть была оставлена ​​для проверки. Если вы возьмете достаточно сгибов, это позволит вам также получить статистику значения F, а затем вы можете проверить, являются ли эти значения для разных значений K статистически значимыми.

См., Например, также: http://pic.dhe.ibm.com/infocenter/spssstat/v20r0m0/index.jsp?topic=%2Fcom.ibm.spss.statistics.help%2Falg_knn_training_crossvalidation.htm

Однако тонкость здесь заключается в том, что существует вероятность зависимости числа точек данных для предсказания и значения K. Итак, если вы применяете кросс-валидацию, вы используете 9/10 учебного набора для обучения ... Не знаете, было ли проведено какое-либо исследование по этому вопросу и как исправить это в окончательном наборе обучения. В любом случае большинство программных пакетов просто используют вышеупомянутые методы, например. см. SPSS в ссылке. Решение состоит в том, чтобы использовать перекрестную проверку на однократную пересылку (каждый образец данных не используется один раз для тестирования), в этом случае у вас есть образцы обучения N-1 (исходный набор для обучения имеет N).

Смежные вопросы