Я очень новичок в обучении машинам и нуждаюсь в нескольких вещах. Я пытаюсь предсказать вероятность того, что кто-то понравится деятельности, основанной на их любимых Facebook. Я использую классификатор Naive Bayes, но я не уверен в нескольких вещах. 1. Какими будут мои метки/входы? 2. Какую информацию мне нужно собрать для подготовки данных? Мое предположение - создать опрос и задать вопросы о том, как человек будет заниматься деятельностью (шкала от 1 до 10).Сбор данных обучения обучению данных
ответ
В контролируемой классификации все классификаторы должны быть обучены известными помеченными данными, эти данные известны как данные обучения. Ваши данные должны иметь вектор функций, за которым следует специальный номер класс. В вашей проблеме, если человек пользуется этой деятельностью или нет.
Как только вы обучите классификатор, вы должны проверить его поведение с другим набором данных, чтобы не быть предвзятым. Этот набор данных должен содержать класс в качестве данных поезда. Если вы тренируетесь и тестируете одни и те же наборы данных, предсказание классификаторов может быть действительно приятным, но несправедливым.
Предлагаю вам ознакомиться с методами оценки, такими как K Fold Cross Validation.
Еще одна вещь, которую вы должны знать, - это то, что общий классификатор Naivve Bayes используется для прогнозирования двоичных данных, поэтому ваш класс должен быть 0 или 1, что означает, что человек, которого вы делаете в опросе, наслаждался или не выполнял эту деятельность. Также он реализован в таких пакетах, как Weka (Java) или SkLearn (Python).
Если вы действительно заинтересованы в байесовских классификаторах, мне нужно сказать, что на самом деле наивный Байес для двоичной классификации не самый лучший, потому что Minsky in 1961 обнаружил, что границы принятия решений являются гиперплоскостями. Также Brier Score действительно плохой, и говорят, что этот классификатор недостаточно хорошо откалиброван. Но, в конце концов, он делает хорошие прогнозы.
Надеюсь, это поможет.
Это может быть довольно сложно с Наивным Байесом. Вам нужно будет собрать (или рассчитать) образцы того, нравится ли человеку активность X, а также детали их любимых Facebook (организованы определенным образом).
В принципе, для Naive Bayes ваши данные обучения должны быть того же типа данных, что и ваши тестовые данные.
Подход обследования может работать, если у вас есть доступ к истории Facebook каждого человека.
Есть ли другой классификатор, который может сделать это проще? – joethemow
В идеале говорят, что у меня был доступ к Facebook для людей, я все еще немного запутался в том, как настроить этап ввода обучения – joethemow
Я хотел бы изучить теорему Байеса/правило Байеса, чтобы получить четкое представление о том, как тренироваться с ваши данные. http://stackoverflow.com/a/20556654/7531811 отлично справляется с этим! – igoldthwaite
- 1. Реализации обучения иерархическому обучению
- 2. Механизм обучения данных обучения
- 3. Обновление данных обучения для контролируемого обучения - как?
- 4. Временный сбор данных данных
- 5. Сбор данных - получение внешних данных
- 6. Глубокое обучение обучению чатбота
- 7. GAE сбор данных данных поддержки данных
- 8. Как сделать библиотеки обучения машинам python поддающимися инкрементальному обучению
- 9. Сбор данных Excel 2007
- 10. Сбор данных из Twitter
- 11. Сбор данных iPhone GPS
- 12. Сбор данных задач
- 13. Python - сбор данных онлайн
- 14. Сбор данных несколькими этапами
- 15. SQL replicaton - сбор данных
- 16. Постоянный сбор данных
- 17. Сбор данных с ADK
- 18. Сбор данных с сервера
- 19. сбор данных из checkboxlist
- 20. База данных для обучения/обучения хранимых процедур
- 21. Идеальный размер ввода данных CNN, данных обучения
- 22. Сбор данных из базы данных доступа
- 23. Веб-скребок, сбор данных, извлечение данных
- 24. TSQL Сбор данных из нескольких баз данных
- 25. Сбор данных: заполнение базы данных офлайн
- 26. Сбор данных для просмотра большого объема данных
- 27. Сбор атрибутов поставщиков датских данных данных
- 28. Стратегии/Инструменты для создания базы данных по обучению
- 29. Как использовать видео для обучения глубокому обучению (caffe & digits)?
- 30. Предварительная обработка данных машинного обучения
Какими будут функции? Я все еще немного смущен тем, как данные будут структурированы. – joethemow
Если вы ищете один случай, формально называемый * индивидуальным *, он должен выглядеть так: 2,2,7,10,0, ** 1 **. Это означает: первый ответ на вопрос - 2, второй вопрос 2 и т. Д. Последнее число (жирным шрифтом) соответствует признаку * class *, которое равно 1, это означает, что человек удовлетворен деятельностью. Обратите внимание, что вы не используете только один экземпляр, вместо этого у вас есть матрица, каждая строка соответствует экземпляру. – ancalotoru