0

Я написал свой собственный текстовый классификатор, основанный на некоторой лингвистической теории. Конечным результатом классификатора является кортежная пара названия статьи и двоичной категории.Как оценить мой собственный классификатор текста

Я также использовал классификатор NB на своем золотом стандарте corpus и оценил его производительность с помощью CV, используя библиотеку обучения Sci-kit в Python. Тем не менее, я изо всех сил пытаюсь понять, как оценить производительность моего собственного классификатора. : S

Я бы очень признателен за ваши идеи, так как я не испытываю машинного учащегося.

Спасибо,

Guzdeh

+1

Выберите разумную метрику из [sklearn] (http://scikit-learn.org/stable/modules/classes.html#module-sklearn.metrics) и подготовьте свои данные к совместимости. Если вы выбрали хороший номер в своем NB-CV, то вы можете взять его снова – sascha

ответ

0

Чтобы оценить классификатор, наиболее распространенная Метрика точности, но не правила для всех возможных сценариев, так что я хотел бы предложить вам прочитать немного об оценке метрика для классификаторов. Также читайте о методологии оценки.

Если у вас нет времени, придерживайтесь точности и перекрестной проверки на данный момент, но не забудьте понять, что означает данный показатель, что означает ваша методология, как читать матрицу замешательства, каждую метрику и методологию за и против , и особенно его ограничения.

Scikit Узнайте Референс Страница своих показателей: Link

Scikit Учимся Руководство пользователя для перекрестной проверки: Link

Вы сказали, у вас есть золотой стандарт. Вы сказали, что у вас есть ваша модель. Затем вам нужно выбрать только метрику и методологию оценки.

Ваша модель будет прогнозировать класс/цель с учетом ввода (набор функций). Затем предсказание будет сравниваться с вашим истинным/золотым стандартом.

+0

спасибо за ваши ответы, я сейчас вычислил точность для моего классификатора. Я немного тороплюсь. Тем не менее, я также хотел бы провести классификацию kNN, используя оценки подобия косинусов, но не знаю, как преобразовать сходства косинусов в расстояния, которые будут использоваться с kNN. Я не могу найти ничего полезного в режиме онлайн. У кого-нибудь есть рекомендации. Заранее спасибо. :) – guzdeh

+0

Косинус Сходство - это попарная метрика, поэтому она не используется непосредственно в классификации. Вы можете использовать классификатор KNN непосредственно с вашей матрицей дизайна (векторизованным текстовым корпусом), Scikit Learn предоставляет один: http://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html – Rabbit

+0

Просто дополнительный комментарий. В чем причина того, что вы хотите измерить, насколько похожи ваши документы? Если вы хотите ранжировать документы по подобию, то это типичная проблема поиска информации (аналогичная поисковой системе). Дайте мне знать, хотите ли вы следовать этому направлению, потому что вам не понадобится классификатор. – Rabbit

Смежные вопросы