2016-11-07 1 views
-1

Какой экстрактор функции (Countvectorizer, TfIdf) лучше всего подходит для анализа настроений твитов? Может кто-то объяснит разницу между каждым и наиболее подходящим для разных классификаторов.Выделение функции для анализа настроений с использованием scikit-learn

Я планировал использовать 3 различные classifiers- Наивного Байеса, SVM и MaxEnt

ответ

1

Вы можете попробовать использовать метод SelectKBest для выбора верхних К наиболее информативным признакам для анализа настроений. Это присутствует в библиотеке scikit-learn в Python. http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectKBest.html

Вы можете импортировать его как:

from sklearn.feature_selection import SelectKBest, chi2, f_classif 

После того, как вы прочитали документацию, вы можете попробовать использовать как «chi2», а также «х-объявл» оценку для извлечения признаков. SelectKBest - хороший метод для выбора ваших функций, поскольку он выбирает функции, которые имеют самую сильную связь с выходной переменной. Вы можете продолжать изменять значение k для эксперимента и посмотреть, какое значение k дает вам наилучшие результаты.

+0

Нет, я действительно искал метод извлечения объектов, а не способ выбора функции. – ak9

+0

Tfidf и Count Vectorizer дают разные результаты в зависимости от ваших данных. Вы можете попробовать оба и посмотреть, что дает вам лучшую производительность. – PJay

Смежные вопросы