2015-04-22 5 views
1

Я новичок в scikit, и я, следуя примеру здесьScikit сравнение классификации/рейтинга

http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html#exercise-3-cli-text-classification-utility

Однако, мне было интересно, если строки, которые я хотел классифицировать, А и В, были ли они классифицированы по той же группе документов из Naiive Bayes, смогу ли я узнать, какая строка более вероятно будет классифицироваться в группе документов?

Например, если группа документов была «компьютерной графикой», и у меня была строка «Компьютеры классные», а другая строка «OpenGL и CUDA - это классно», в то время как оба они могут быть классифицированы под этой группой документов, вторая строка может быть более строго классифицирована под этим, потому что оценка tf-idf может быть выше. Есть ли способ найти это после того, как я их классифицировал, чтобы узнать, какая строка является более сильным представителем этой категории?

ответ

2

Многие классификаторы в scikit имеют метод predict_proba, который возвращает прогнозируемую вероятность того, что данные теста попадут в любую из доступных категорий вывода. (Here - это, например, для гауссовых наивных байесов.) Вы можете использовать это, чтобы выяснить, насколько уверенна модель в классификации.

Смежные вопросы