0

В контексте крупномасштабного исследования по тестированию данных, я сравниваю 15 алгоритмов над 9 наборами данных, что приводит к общим комбинациям алгоритмов/наборов данных 135. Исследование проводится с использованием WEKA.Выбор функции/Выбор атрибута - Хорошие общие исполнители

Мой последний анализ касается влияния выбора функции . Я знаю, что нет такого понятия, как идеальный алгоритм выбора признаков, но оптимальный выбор скорее зависит от как алгоритма, который будет развернут, так и набор данных, к которому он будет применен.

Хотя проблема заключается в том, чтобы найти оптимальный алгоритм выбора объектов для каждой комбинации, я ищу те, которые, как считается, показывают хорошую производительность в целом, «allrounder», так сказать. До сих пор я нашел рекомендацию для CFS (корреляция на основе отбор признаков), ReliefF и Консистенция основанной оценки подмножества (Hall/Holmes 2002), как правило, хороший выбор, а также примечание из опроса, что такие простые методы, как Рейтинги (например, коэффициент корреляции) доказали свою эффективность (Guyon/Ellissef 2003).

Есть ли отличное исследование некоторых других исследований, указывающих, какие методы использовать или какие из них использовать на практике?

+0

Можете ли вы предоставить дополнительную информацию о том, какую проблему классификации вы пытаетесь решить? Классификация текста, реляционная классификация, ...? – miguelmalvarez

+0

Тип проблемы классификации - это все проблемы, связанные с клиентом, включая, например, классификации рисков (банковские или онлайн-транзакции), прямой маркетинг или высокий процент возвратных поставок в интернет-магазинах. Априорные вероятности экономически значимого класса сильно различаются (от 5% до 50%), а общая стоимость используется в качестве критериев оценки. Типы атрибутов смешанны, включая как номиналы, так и числовые числа, где количество атрибутов варьируется от 15-200 (в зависимости от кодирования атрибутов). AUC, где общая стоимость неприменима. – ateich

+0

Алгоритмы включают в себя традиционные, как C4.5, IBk, Logistic, NaiveBayes, CART, а также SVMS и метаклассификаторы в качестве Bagging, Boosting. – ateich

ответ

0

С точки зрения текстовой классификации, существует 1 article от Yang etal. сравнивая различные алгоритмы выбора функций (хи-квадрат, частоту документа и коэффициент усиления информации).

Хотя основное внимание уделяется тексту (т. Е. Частота документа не будет применяться к вам вообще), другие могут, в зависимости от характера ваших функций (т. Е. Бинарных или нет, всегда присутствовать, ...)

Надеюсь, это поможет.

Смежные вопросы