2016-10-23 4 views
-5

Я пытаюсь обучить классификатор, чтобы классифицировать текст из чата между двумя пользователями, поэтому я могу предсказать, кто из этих двух пользователей, скорее всего, скажет X предложение/слово. Чтобы добраться туда, я заработал текст из журнала чата и закончил с двумя массивами слов, UserA_words и UserB_words.Какое представление текстовых данных чата следует использовать для классификации пользователей?

В каком формате мне нужно преобразовать эти массивы, чтобы передать его в классификатор, например, naiveBayes или SVM? Как пройти, например. пакет представления слов в классификатор?

+0

Запрашивать, какое представление ML использовать для конкретной задачи классификации по теме на сайте-партнере [DataScience.SE] (http://datascience.stackexchange.com). Пожалуйста, мигрируйте туда. – smci

+0

Удержание этого не является конструктивным: либо перейти на DataScience.SE, либо оставить здесь. Мой ответ показывает, что у этого есть реальный ответ. – smci

+0

@smci Извините, я новичок здесь, я опубликовал аналогичный вопрос в Data Science SE, но как мне перенести этот? Заранее благодарю – whiteTea

ответ

0

Вы спрашиваете, какое представление ML вы должны использовать для пользовательской классификации текста чата.

Сумка слов и слово-вектор являются основными представлениями, обычно используемыми при обработке текста. Однако пользовательская классификация чата не является обычной задачей обработки текста, мы ищем контрольные функции, указывающие на конкретного пользователя. Вот некоторые из них:

  • длина символов, длина слова, длина предложения каждого комментария
  • набрав скорость
  • отношение знаков препинания (например, 17 символов пунктуации в 80 (особенно если у вас есть метки времени в секундах.) си = 17/80)
  • коэффициента капитализации
  • отношения цифр
  • отношения пробельного
  • характер n- граммов (и заметить, что они могут подбирать, например, l0ser, ф ## к, :-))
  • использование Unicode (смайлики символов например, звезды)
  • отношения конкретной пунктуации (например, сколько '', '!', '?', «* ',' # ')
  • количество слов, особенно. что-либо статистически аномально
  • все, что вы можете придумать, что кажется предсказательным для этих двух пользователей, например. количество ошибочных слов за предложение (может быть актуальным опечаткам или исходить из прогностической проверки на мобильном телефоне)
Смежные вопросы