В настоящее время я работаю над проектом, в котором я беру электронные письма, удаляя тела сообщений с помощью пакета электронной почты, а затем я хочу классифицировать их с помощью таких ярлыков, как спорт, политика, технология и т. Д. ..Классификация текстовых документов с использованием nltk
Я успешно удалил тела сообщений из своих писем, теперь я ищу, чтобы начать классифицировать. Я сделал классический пример классификации анализа чувств, используя блок move_reviews, отделяющий документы от положительных и отрицательных отзывов.
Мне просто интересно, как я мог применить этот подход к моему проекту? Могу ли я создать несколько классов, таких как спорт, технологии, политика, развлечения и т. Д.? Я попал в дорожный блок здесь, и я ищу толчок в правильном направлении.
Если это не подходящий вопрос для СО, я с радостью удалю его.
Вы посмотрели библиотеку gensim python? – amirouche
Чтобы начать классифицирование, сначала нужно пометить набор данных. Это может быть ручная аннотация или правило. Конечно, вы можете создать несколько классов для своего набора данных. Для вашего случая типа электронной почты наверняка у вас есть несколько классов. Затем вы можете начать изучать и классифицировать свои данные. Либо использовать cv, либо тест на расщепление поезда. Как вы сделали для просмотра фильмов. –
Как уже упоминалось, gensim моделирует тему. Ссылка: https://radimrehurek.com/gensim/tutorial.html. Гэнсим находит семантическое сходство между документами и кластерами. Вы можете определить ведра как спорт, политику, технологии и т. Д., Перейдя по документам в конкретном кластере. –