Я обучил мой классификатор, используя 20 доменов, используя MultinomialNB.scikit learn классифицировать нерелевантные (вне домена) данные
Классификатор отлично работает для 20 подготовленных наборов данных.
Но проблема в том, что я делаю запрос с текстом из 20 доменов, хотя он классифицирует этот текст. Я ожидаю 0 вероятности вне входа в домен.
например.
запрос: 'Ядро i7 является процессором Intel'
И я приучил данные с использованием домена religion
, sports
, astronomy
доменов.
Query не относится ни к одному из этих доменов, даже если он дает результат 33% для любого домена.
Аналогичным образом запрос: «где есть что», также можно классифицировать по вышеуказанным доменам.
Как я могу показать 0 результат для запроса, принадлежащего вне домена? или любую функцию scikit, которая дает, насколько вероятность-маржа выходит за пределы доменов?
Также есть ли способ увидеть маржу stopwords
в запросе?
Вы можете использовать порог доверия. Например, вы можете сказать, что если нет домена, в котором запрос не менее 50%, то он не определен. – AdrienNK
@AdrienNK: спасибо, дорогой, но я ищу лучшее решение, если возможно – 2014-09-03 12:48:45