1

В настоящее время я работаю над проектом, в котором я беру электронные письма, удаляя тела сообщений с помощью пакета электронной почты, а затем я хочу классифицировать их с помощью таких ярлыков, как спорт, политика, технология и т. Д. ..Классификация текстовых документов с использованием nltk

Я успешно удалил тела сообщений из своих писем, теперь я ищу, чтобы начать классифицировать. Я сделал классический пример классификации анализа чувств, используя блок move_reviews, отделяющий документы от положительных и отрицательных отзывов.

Мне просто интересно, как я мог применить этот подход к моему проекту? Могу ли я создать несколько классов, таких как спорт, технологии, политика, развлечения и т. Д.? Я попал в дорожный блок здесь, и я ищу толчок в правильном направлении.

Если это не подходящий вопрос для СО, я с радостью удалю его.

+1

Вы посмотрели библиотеку gensim python? – amirouche

+1

Чтобы начать классифицирование, сначала нужно пометить набор данных. Это может быть ручная аннотация или правило. Конечно, вы можете создать несколько классов для своего набора данных. Для вашего случая типа электронной почты наверняка у вас есть несколько классов. Затем вы можете начать изучать и классифицировать свои данные. Либо использовать cv, либо тест на расщепление поезда. Как вы сделали для просмотра фильмов. –

+1

Как уже упоминалось, gensim моделирует тему. Ссылка: https://radimrehurek.com/gensim/tutorial.html. Гэнсим находит семантическое сходство между документами и кластерами. Вы можете определить ведра как спорт, политику, технологии и т. Д., Перейдя по документам в конкретном кластере. –

ответ

1

Чтобы создать классификатор, вам нужен набор данных для обучения с классами, которые вы ищете. В вашем случае, возможно, потребуются либо:

  1. создавать свои собственные набора данных
  2. использовать предварительно существующий набор данные

brown corpus является семенным текстом со многими из категорий вы говорящие около. Это может быть отправной точкой, чтобы помочь классифицировать ваши электронные письма с помощью некоторого пакета, например gensim, чтобы найти похожие на семантику тексты.

Как только вы классифицируете свои электронные письма, вы можете обучить систему прогнозированию ярлыка для каждого незрого электронного письма.

+0

Спасибо за это, супер полезно! – Cody

3

Задача по классификации текста - Изучаемая машина Изучение проблема. Это означает, что вам нужно иметь помеченные данные. Когда вы подошли к проблеме movie_review, вы использовали ярлыки + 1/-1 для обучения вашей системы анализа настроений.

Возвращаясь к вашей проблеме:

  1. Если у вас есть ярлыки для ваших данных, подойти к проблеме таким же образом. Я предлагаю вам использовать библиотеку scikit-learn. Вы можете нарисовать некоторое вдохновение отсюда: Scikit-Learn for Text Classification

  2. Если у вас нет ярлыков, вы можете попробовать неконтролируемый подход к обучению. Если у вас есть какая-либо информация о том, сколько категорий (назовите номер K) у вас есть, вы можете попробовать подход KMeans. Это означает, что группировка электронных писем в категориях K основана на том, насколько они похожи. Подобные электронные письма попадут в похожие ведра. Затем осмотрите кластеры вручную и придумайте этикетку. Назначьте новые письма в самый похожий кластер. Если вам нужна помощь с KMeans проверить этот быстрый рецепт: Text Clustering Recipe

Предложение: Получение этикетки для писем может быть проще, чем вы думаете. Например, Gmail позволяет экспортировать ваши сообщения электронной почты с информацией о папке. Если вы классифицировали свой адрес электронной почты, вы можете воспользоваться этим.

Смежные вопросы