2016-03-26 2 views
0

У меня есть твиты определенной учетной записи, я хочу, чтобы пройти через каждый твит и классифицировать в классе таких лейблах, как бизнес, музыка, спорт и т.д.Multi-класс классификации в R

Мой подход к созданию обучающих данных для назначения несколько ключевых слов для каждой метки класса, например

  1. Ключевые слова для «Бизнес» может быть - предприниматель, работа, ВВП ...
  2. Ключевые слова для «Music» может быть - песни, жанр, альбом ...

файл .csv для обучающих данных имеет 2 колонки 1. Ключевые слова 2. класс

Является ли это правильный путь?

Заранее благодарю вас!

ответ

0

Кажется, что то, что вы пытаетесь сделать, похоже на метод словаря. Очень просто применить словарь к тексту текстов, но, учитывая, что вы используете твиты, я бы рекомендовал использовать Kenneth Bennoits отличный пакет Quanteda.

Более конкретно, вы можете создать собственный словарь (класс s3, который, как я полагаю), из списка терминов.

https://cran.r-project.org/web/packages/quanteda/quanteda.pdf

, а затем применить словарь, используя applyDictionary. Вы получите хорошую таблицу с текстом и клавишами словаря:

docs christmas opposition taxglob taxregex country 
    text1   1   1  1  0  0 
    text2   0   0  1  0  2 
+0

Я пробовал, это была точная вещь, которую я искал. Спасибо огромное! –

+0

Нет проблем. Рад был помочь. Quanteda - отличный инструмент для анализа текста. Также хорошо, потому что он понимает щебет! – lmkirvan

+0

Это глупая задача спросить, но я не могу найти решение этого. Я сохранил «спорт», «ношу» в своем словаре, но всякий раз, когда я встречаю слова, связанные с ними, такие как «спорт», «носит», он не может их идентифицировать. Любое предложение, как это сделать? –

Смежные вопросы