2014-09-03 2 views
0

Я обучил мой классификатор, используя 20 доменов, используя MultinomialNB.scikit learn классифицировать нерелевантные (вне домена) данные

Классификатор отлично работает для 20 подготовленных наборов данных.

Но проблема в том, что я делаю запрос с текстом из 20 доменов, хотя он классифицирует этот текст. Я ожидаю 0 вероятности вне входа в домен.

например.

запрос: 'Ядро i7 является процессором Intel'

И я приучил данные с использованием домена religion, sports, astronomy доменов.

Query не относится ни к одному из этих доменов, даже если он дает результат 33% для любого домена.

Аналогичным образом запрос: «где есть что», также можно классифицировать по вышеуказанным доменам.

Как я могу показать 0 результат для запроса, принадлежащего вне домена? или любую функцию scikit, которая дает, насколько вероятность-маржа выходит за пределы доменов?

Также есть ли способ увидеть маржу stopwords в запросе?

+2

Вы можете использовать порог доверия. Например, вы можете сказать, что если нет домена, в котором запрос не менее 50%, то он не определен. – AdrienNK

+0

@AdrienNK: спасибо, дорогой, но я ищу лучшее решение, если возможно – 2014-09-03 12:48:45

ответ

1

Если вы тренируетесь, чтобы различить 3 ярлыка, то каждый вход получит одну из этих трех меток.

Вы можете подготовить дополнительный ярлык для «всего, что нельзя отнести к религии, спорту, астрономии».

Тогда вы можете использовать эту метку как «обнаруженный вне домена».

+0

спасибо, но поскольку у меня есть 20 доменов и у них есть набор данных, принадлежащих к этим доменам. Получение данных, которые не относятся к этим 20 доменам, невозможно:) – 2014-09-03 11:04:02

+0

Есть ли какой-либо набор данных, который классифицирует стоп-слова? – 2014-09-03 11:34:12

+0

Если вы тренируете классификатор, обычно этот классификатор будет классифицировать на основе прогнозируемой (условной) вероятности вашего ввода. Вы можете экспериментально узнать порог этой вероятности. Ниже вы не принимаете, даже если класс является лучшим из всех классов. Это дает вам «классифицировать как вне домена» бесплатно, но, конечно, установление такого порога является рискованным и должно быть сделано тщательно. –

Смежные вопросы