Предположим, что аналитик по данным, работающий в страховой компании, попросил построить прогностическую модель для прогнозирования того, будет ли клиент покупать мобильный страховой полис. Он/она попробовал классификатор kNN с различным количеством соседей (k = 1,2,3,4,5). Он/она получил следующие F-баллы, измеренные по данным обучения: (1,0; 0,92; 0,90; 0,85; 0,82). Исходя из этого, аналитик решил развернуть kNN с k = 1. Это был хороший выбор? Как бы вы выбрали оптимальное количество соседей в этом случае?Data Mining Классификатор KNN
ответ
Не рекомендуется выбирать параметр алгоритма прогнозирования, используя весь набор тренировок, поскольку результат будет смещен в сторону этого конкретного набора тренировок и не имеет информации об эффективности обобщения (т. Е. Производительности по отношению к невидимым случаям). Вы должны применить метод перекрестной проверки, например. 10-кратная перекрестная проверка для выбора наилучшего K (то есть K с наибольшим значением F) в пределах диапазона. Это включает в себя разделение ваших данных обучения на 10 равных частей, удерживающих 9 частей для обучения и 1 для проверки. Итерации, чтобы каждая часть была оставлена для проверки. Если вы возьмете достаточно сгибов, это позволит вам также получить статистику значения F, а затем вы можете проверить, являются ли эти значения для разных значений K статистически значимыми.
См., Например, также: http://pic.dhe.ibm.com/infocenter/spssstat/v20r0m0/index.jsp?topic=%2Fcom.ibm.spss.statistics.help%2Falg_knn_training_crossvalidation.htm
Однако тонкость здесь заключается в том, что существует вероятность зависимости числа точек данных для предсказания и значения K. Итак, если вы применяете кросс-валидацию, вы используете 9/10 учебного набора для обучения ... Не знаете, было ли проведено какое-либо исследование по этому вопросу и как исправить это в окончательном наборе обучения. В любом случае большинство программных пакетов просто используют вышеупомянутые методы, например. см. SPSS в ссылке. Решение состоит в том, чтобы использовать перекрестную проверку на однократную пересылку (каждый образец данных не используется один раз для тестирования), в этом случае у вас есть образцы обучения N-1 (исходный набор для обучения имеет N).
- 1. opinin mining используя наивный классификатор заливов
- 2. KNN Классификатор для простого распознавания цифр
- 3. Data mining with Weka
- 4. Data mining termin "fledged"?
- 5. Data mining с Python
- 6. Последовательный шаблон - Data Mining
- 7. R data mining синтаксис
- 8. Data Mining от HTML
- 9. Data Mining - Прогностический анализ
- 10. Data Mining в Lisp
- 11. Data mining from iframes
- 12. Twitter Data Mining: Степени разделения
- 13. Data Mining и несимметричные Классы
- 14. Data Mining - K ближайший сосед
- 15. data mining: Часто задаваемые вопросы
- 16. Как реализовать классификатор KNN с пользовательским взвешиванием для учебных наблюдений
- 17. Knn классификатор в настройках несколько этикеток с ВЕКОМ
- 18. Как предсказать классификатор KNN без использования встроенной функции
- 19. Классификатор KNN, не работающий в python на raspberrypi
- 20. Data mining RoR-приложение для дриблинг-снимков
- 21. Data Mining SSE Via Clusters K
- 22. Как обрабатывать файл YAML? (Data mining)
- 23. Correlations/Data Mining в Microsoft Excel 2003
- 24. Data mining: Apriori issue. Min-support
- 25. Sql server and R, data mining
- 26. IR vs Data mining vs ML
- 27. Что такое Java Data Mining, JDM?
- 28. Match pair - Data mining/Texmining - Cluster - [help]
- 29. Повышение точности классификатора knn
- 30. SQL Server excel «data mining» addin error message
Как бы то ни было, это выглядит как домашнее задание – goncalopp
@ user3195317 Это может быть на поздней неделе, но * ТАК НЕ ПОЛУЧИТСЯ, ЧТОБЫ ПОЛУЧИТЬ ДОМУ! * Пожалуйста, не делайте этого! Прочитайте * Как спросить страницу * в следующий раз! –
@ user3195317 Если вы улучшите свой вопрос в соответствии с рекомендациями, и я думаю, что он может * заслужить ответ. В следующий раз, когда вы зададите вопрос, не просто игнорируйте правила. Благодарю. –