В настоящее время я выполняю задачу категоризации некоторых документов в некоторых заранее определенных наборах классов. Для этого я полагаюсь на Multinomial Naive Bayes, и он отлично подходит для большинства категорий, таких как бейсбол, спорт или космос.Как определить категории документа, такие как Movie или Biography
Однако, как я могу найти статьи категорий, например, фильмы или биографию какого-то человека? MNB в первую очередь работает на мешке словарного жаргонного подхода. Вот почему легко обнаружить бейсбольные статьи, потому что они будут содержать множество бейсбольных жаргонов. Однако в фильмах или биографических статьях содержится очень мало жаргона. Фильм-документы описывают фильм или просматривают его со словами, относящимися только к этому фильму. Таким образом, статья о «Несколько хороших мужчин» может содержать множество юридических терминов, что может привести к непреднамеренному обозначению ее как «закона». То же самое для биографий, это просто описывает жизнь человека.
Как классифицировать такие документы?
Я подумал об этом. Проблема в том, что есть миллионы (и постоянно считающих) актеров и актрис, как я узнаю, что именованный объект используется в контексте действия? Иногда имена актера и персонажа используются поочередно, что добавляет проблемы. – SexyBeast
Чтобы использовать полуконтролируемые подходы, вам нужны базы данных для имен актеров или персонажей, связанных с актерами, попытайтесь найти наборы данных так много, как вы можете в онлайн-апи и базах данных. – Masoud
Ах, верно, я боялся столько же. Проблема в том, что существует несколько категорий. Фильмы, история, география, музыка ... список бесконечен! – SexyBeast