2016-03-03 2 views

ответ

0

Анализ чувствительности часто относится к обучению машинам, поэтому возможным способом выполнения этого является выполнение алгоритма машинного обучения, в котором атрибутами являются граммы.

Тем не менее, вы можете определенно собирать сентиментальные фразы/слова в виде счастливых/грустных токенов (в зависимости от того, используете ли вы униграмму или биграмм ...) и просто подсчитываете количество случаев появления токенов ,

+0

Могу ли я использовать все три, униграммные, биграммные и триграммные анализы. Будет ли это улучшать мою точность для того же самого? –

+0

Всё зависит от меня. Вы можете использовать их отдельно и сравнивать результаты, но не рекомендуется использовать их в качестве атрибутов для одного экземпляра, так как это может вызвать чрезмерные проблемы ... –

+0

Если я беру всего два грамма и три грамма? –

0

Векторизовать X-граммы, используя мешок слов или любую другую технику, а затем применить алгоритм классификации: MaxEnt/SVM/RandomForest. N-Gram обычно не улучшают результаты, ведь использование более 2 г может даже снизить ваш PR.

+0

Что означает векторизация X-граммов? не могли бы вы рассказать? –

+0

Вы можете использовать sklearn.feature_extraction.text.CountVectorizer для генерации ngrams: X = CountVectorizer (ngram_range = (1, 2), token_pattern = r '\ b \ w + \ b'). Fit_transform (corpus) .toarray() –

Смежные вопросы