Я только что создал свою собственную модель Naive Bayes с нуля и обучил ее 776 документам. Я пробовал классифицировать документы, но он классифицировал документы на всех трех тестовых документах. Категория, в которой она должна была быть даже самой низкой из всех вероятностей по отношению к другим категориям (это для двух из трех тестовых документов).Сколько документов нужно готовить для наивных заливов?
Следует ли увеличить количество учебных документов? Я не думаю, что это мой код, потому что я проверил вычисления, но я не знаю, может быть, функция compute_numerators ошибочна? Для числитель части я использовал журналы из-за сгущенного задачи и суммируются вероятности условий и вероятности (number_of_documents_in_category/overall_number_of_documents)
Супер смущен и обескуражен, так как это заняло у меня так долго, и теперь я чувствую, как это было ни для чего, потому что оно даже не классифицировало ОДИН документ правильно :(
@Bob Dillon, Привет, благодарю вас за подробный ответ. Мой самый большой вопрос из этого заключался в том, что вы подразумеваете под разделительным. есть четкое различие между документами между классами? Я действительно не знаю, как это ответить. Данные были классифицированы людьми, поэтому разделение возможно, но, возможно, s настолько близко к другим типам категорий, что он становится размытым? Может быть, компьютер не распознает разницу в используемых словах, которые классифицируются как одна вещь против другой категории? Я должен держать эти категории, я не могу переупорядочить категории, они должны быть такими, как есть. Я не уверен, как прототип в R, мне все равно не нужно будет записывать текстовые данные и запускать их? мне все равно не нужно будет создавать токенизацию и т. д.? Я собираюсь изучить прирост информации и SVM. Вероятно, я вернусь назад. Благодаря!
Хорошо, что вы сравниваете это, чтобы знать, что это неправильно? Кроме того, магическое число в статистике равно 30. До тех пор, пока у вас будет более 30 наблюдений, ваш размер выборки должен быть достаточно большим. – FirebladeDan
Ну, тестовый документ уже классифицирован, я просто хочу посмотреть, правильно ли он классифицирован. И я сравниваю предсказанное с фактическим. Да, у меня 776 так определенно покрывает 30 баз, но, возможно, для классификации текста требуется гораздо больше? – hope288
Так что не волнуйся о том, что у тебя хороший выбор. По-прежнему не имеет смысла, с каким двигателем вы сравниваетесь. Ваш обученный набор отличается от вашего, сделанного в R или Matlab. Я все еще смущен, как вы знаете, что это неправильно. – FirebladeDan