2010-12-11 4 views
6

У меня есть набор данных для классификации текста, готовый для использования в MATLAB. Каждый документ является вектором в этом наборе данных, и размерность этого вектора чрезвычайно высока. В этих случаях люди обычно выполняют некоторые функции на векторах, таких как те, которые вы на самом деле находите инструментарий WEKA. Есть ли что-то подобное в MATLAB? если не могу предложить и алгоритм для меня сделать это ...? thanksВыбор функции в MATLAB

+1

Дубликат http://stackoverflow.com/questions/3047940/feature-selection -методы-в-MATLAB? Но у этого, кажется, есть более приемлемый ответ. –

ответ

12

MATLAB (и его Инструментарии) включают в себя ряд функций, которые имеют дело с выбором функции:

  • RANDFEATURES (Биоинформатика Toolbox): Генерировать рандомизированное подмножество функций, направленных классификатором
  • RANKFEATURES (Bioinformatics Toolbox): характеристики ранжирования по критериям разделения классов
  • SEQUENTIALFS (Statistics Toolbox): Последовательный выбор функция
  • RELIEFF (Statistics Toolbox): Облегчение-F алгоритм
  • TREEBAGGER.OOBPermutedVarDeltaError, predictorImportance (Statistics Toolbox): Использование ансамблевых методов (в мешки деревьев решений)

Вы также можете найти примеры, которые демонстрируют использование реальных наборов данных:

Кроме того, существуют сторонние инструментарии:

В противном случае, вы всегда можете позвонить ваши любимые функции от WEKA непосредственно из MATLAB, поскольку он включает JVM ...

1

Выбор функции зависит от конкретной задачи, которую вы хотите выполнять с текстовыми данными.

Одним из самых простых и грубых способов является использование анализа основных компонентов (PCA) для уменьшения размеров данных. Эти уменьшенные данные измерений могут использоваться непосредственно как функции для классификации.

Обратитесь к руководству по использованию PCA здесь:

http://matlabdatamining.blogspot.com/2010/02/principal-components-analysis.html

Вот ссылка на командной помощью Matlab PCA:

http://www.mathworks.com/help/toolbox/stats/princomp.html

Используя полученные функции, хорошо известная поддержка Вектор Машины (SVM) могут использоваться для классификации.

http://www.mathworks.com/help/toolbox/bioinfo/ref/svmclassify.html http://www.autonlab.org/tutorials/svm.html

Смежные вопросы