Я использую классификатор Наивного Байеса. После этого tutorial. Для подготовленных данных я использую 308 вопросов и классифицирую их по 26 категориям, которые помечены вручную. Перед отправкой данных я выполняю NLP. В NLP я выполняю (удаление пунктуации, токенизацию, удаление и удаление стоп-слова) Эти отфильтрованные данные используются для ввода mahout. Используя mahout NBC, я тренирую эти данные и получаю файл модели. Теперь, когда я запускаюКак повысить точность классификатора Naive Bayes?
mahout testnb
команда, которую я получаю правильно подобранные экземпляры как 96%.
Теперь для моих тестовых данных я использую 100 вопросов, которые я указал вручную. И когда я использую обученную модель с тестовыми данными, я получаю Правильно классифицированные экземпляры как 1%. Это меня разозлило.
Может кто-нибудь предложить мне, что я делаю неправильно или предложить мне некоторые способы увеличить производительность NBC.?
Кроме того, в идеале, сколько данных вопросов я должен использовать для обучения и тестирования?
У вас есть 300 помеченных входных «векторов» для обучения? Ты серьезно? –
@ThomasJungblut 300 слишком меньше? Сколько вопросов мы должны идеально тренировать для каждого класса/категории? – SLearner