2017-02-08 4 views
-1

Я очень новичок в обучении машинам и нуждаюсь в нескольких вещах. Я пытаюсь предсказать вероятность того, что кто-то понравится деятельности, основанной на их любимых Facebook. Я использую классификатор Naive Bayes, но я не уверен в нескольких вещах. 1. Какими будут мои метки/входы? 2. Какую информацию мне нужно собрать для подготовки данных? Мое предположение - создать опрос и задать вопросы о том, как человек будет заниматься деятельностью (шкала от 1 до 10).Сбор данных обучения обучению данных

ответ

2

В контролируемой классификации все классификаторы должны быть обучены известными помеченными данными, эти данные известны как данные обучения. Ваши данные должны иметь вектор функций, за которым следует специальный номер класс. В вашей проблеме, если человек пользуется этой деятельностью или нет.

Как только вы обучите классификатор, вы должны проверить его поведение с другим набором данных, чтобы не быть предвзятым. Этот набор данных должен содержать класс в качестве данных поезда. Если вы тренируетесь и тестируете одни и те же наборы данных, предсказание классификаторов может быть действительно приятным, но несправедливым.

Предлагаю вам ознакомиться с методами оценки, такими как K Fold Cross Validation.

Еще одна вещь, которую вы должны знать, - это то, что общий классификатор Naivve Bayes используется для прогнозирования двоичных данных, поэтому ваш класс должен быть 0 или 1, что означает, что человек, которого вы делаете в опросе, наслаждался или не выполнял эту деятельность. Также он реализован в таких пакетах, как Weka (Java) или SkLearn (Python).

Если вы действительно заинтересованы в байесовских классификаторах, мне нужно сказать, что на самом деле наивный Байес для двоичной классификации не самый лучший, потому что Minsky in 1961 обнаружил, что границы принятия решений являются гиперплоскостями. Также Brier Score действительно плохой, и говорят, что этот классификатор недостаточно хорошо откалиброван. Но, в конце концов, он делает хорошие прогнозы.

Надеюсь, это поможет.

+0

Какими будут функции? Я все еще немного смущен тем, как данные будут структурированы. – joethemow

+1

Если вы ищете один случай, формально называемый * индивидуальным *, он должен выглядеть так: 2,2,7,10,0, ** 1 **. Это означает: первый ответ на вопрос - 2, второй вопрос 2 и т. Д. Последнее число (жирным шрифтом) соответствует признаку * class *, которое равно 1, это означает, что человек удовлетворен деятельностью. Обратите внимание, что вы не используете только один экземпляр, вместо этого у вас есть матрица, каждая строка соответствует экземпляру. – ancalotoru

0

Это может быть довольно сложно с Наивным Байесом. Вам нужно будет собрать (или рассчитать) образцы того, нравится ли человеку активность X, а также детали их любимых Facebook (организованы определенным образом).

В принципе, для Naive Bayes ваши данные обучения должны быть того же типа данных, что и ваши тестовые данные.

Подход обследования может работать, если у вас есть доступ к истории Facebook каждого человека.

+0

Есть ли другой классификатор, который может сделать это проще? – joethemow

+0

В идеале говорят, что у меня был доступ к Facebook для людей, я все еще немного запутался в том, как настроить этап ввода обучения – joethemow

+0

Я хотел бы изучить теорему Байеса/правило Байеса, чтобы получить четкое представление о том, как тренироваться с ваши данные. http://stackoverflow.com/a/20556654/7531811 отлично справляется с этим! – igoldthwaite

Смежные вопросы