2014-09-10 2 views
1

Я работаю над проблемой классификации текста в python, используя Random Forests из библиотеки scikit-learn. Я хотел бы попробовать различные методы выбора функций, такие как Information Gain (IG) или Bi-Normal Separation (BNS), как описано в этом paper.Выбор функции для текстовой классификации в Python

Кажется, что единственные доступные методы выбора функций, доступные в scikit для выбора функции (с использованием класса CountVectorizer), основаны на частоте документа. Существуют ли другие методы в других библиотеках?

ответ

1

Существует модуль выбора функций с инструментами для одномерного выбора или рекурсивного устранения функции: http://scikit-learn.org/dev/modules/feature_selection.html Нет информации gane или BNS в scikit-learn. Частота документа не является методом выбора функции.

+0

Да, похоже, они не были реализованы. В конце концов, я решил сам реализовать BNS, и когда у меня будет свободное время, я попытаюсь добавить его в библиотеку scikit. Фактически частота документа - это метод выбора функции, по крайней мере, в домене классификации текста. В этом случае вы выбираете функции (слова), которые отображаются в самом большом количестве документов. – markusian

Смежные вопросы