2016-04-29 2 views
-1

Я новичок в weka.Классифицировать набор данных (stringToWord) фильтр weka

У меня есть набор данных (данные twitter) о конкретной компании .. Фильтр, который я использовал: string to word .., и я изменяю параметр wordstokeep = 100, чтобы повысить точность. затем я применил классификаторов: KSTAR 55%, RandomForest 57%, SMO 58% это не то, что самый хороший результат ..

enter image description here

есть какие-либо идеи, которые помогут мне улучшить это очень хорошо> >

+0

У вас может быть слишком мало учебных данных для разнообразных данных, таких как твиттер. –

ответ

0

Сначала попробуйте предварительно обработать ваши данные. Данные Twitter содержат много шума. Удалить:

  1. URL
  2. ретвитов
  3. Hashtags
  4. Специальные символы Еще одна вещь, которую вы можете сделать, это использование п-грамм. Попробуйте разные n-граммы и проверьте, какой из них вам больше всего подходит. Мое занятие - пойти с униграммами + bigrams.

Я также предлагаю использовать naiveBayesMultinomial классификатор. Лучше всего работать с текстовой классификацией и особенно в аналитическом анализе. Кроме того, это очень быстро. Если вы хотите, чтобы код предварительно обрабатывал данные, дайте мне знать :)

Смежные вопросы