1

В настоящее время я выполняю задачу категоризации некоторых документов в некоторых заранее определенных наборах классов. Для этого я полагаюсь на Multinomial Naive Bayes, и он отлично подходит для большинства категорий, таких как бейсбол, спорт или космос.Как определить категории документа, такие как Movie или Biography

Однако, как я могу найти статьи категорий, например, фильмы или биографию какого-то человека? MNB в первую очередь работает на мешке словарного жаргонного подхода. Вот почему легко обнаружить бейсбольные статьи, потому что они будут содержать множество бейсбольных жаргонов. Однако в фильмах или биографических статьях содержится очень мало жаргона. Фильм-документы описывают фильм или просматривают его со словами, относящимися только к этому фильму. Таким образом, статья о «Несколько хороших мужчин» может содержать множество юридических терминов, что может привести к непреднамеренному обозначению ее как «закона». То же самое для биографий, это просто описывает жизнь человека.

Как классифицировать такие документы?

ответ

2

Хорошим решением является использование Named Entity Recognition и Semi контролируемый подход. Например, вы отметили имя участников в предложениях (с помощью методов контроля над сущностью Entity Extraction, отметьте this) и получите счетчик определенной сущности (например: чем больше количество участников (нашей сущности) повторяется в предложении, тем больше предложение относится к фильмам). Затем добавьте его в функцию, поэтому он может быть репрезентативным и важным для классификатора, попытаться найти такие функции из ваших наборов данных и подать свой классификатор с помощью этих

Вы можете проверить эффективность и влияние любой добавленной функции с помощью измерения например Chi2 или ANOVA F Value

+0

Я подумал об этом. Проблема в том, что есть миллионы (и постоянно считающих) актеров и актрис, как я узнаю, что именованный объект используется в контексте действия? Иногда имена актера и персонажа используются поочередно, что добавляет проблемы. – SexyBeast

+0

Чтобы использовать полуконтролируемые подходы, вам нужны базы данных для имен актеров или персонажей, связанных с актерами, попытайтесь найти наборы данных так много, как вы можете в онлайн-апи и базах данных. – Masoud

+0

Ах, верно, я боялся столько же. Проблема в том, что существует несколько категорий. Фильмы, история, география, музыка ... список бесконечен! – SexyBeast

Смежные вопросы