0

Я делаю заявку на классификацию многозначных текстов. Я пробовал использовать алгоритм машинного обучения.RANDOM FOREST для классификации с несколькими метками

Без сомнения, SVM с линейным ядром получает наилучшие результаты.

Я также попытался отсортировать алгоритм RANDOM FOREST, и результаты, которые я получил, были очень плохими, и отзыв и точность очень низки.

Тот факт, что линейное ядро ​​отвечает лучшим результатам, дает мне представление о том, что разные категории линейно разделяются.

Есть ли причина, по которой результаты RANDOM FOREST настолько низкие?

ответ

1

Очень сложно ответить на этот вопрос, не глядя на данные.

У SVM есть история улучшения работы с классификацией текста, но машинное обучение по определению зависит от контекста.

Рассмотрим параметры, с помощью которых вы запускаете алгоритм случайного леса. Каково ваше количество и глубина деревьев, вы обрезаете ветки? Вы ищете большее пространство параметров для SVM, поэтому они с большей вероятностью найдут лучший оптимум.

2

Ансамбль случайного леса хорошо работает во многих доменах и типах данных. Они превосходны в уменьшении ошибки от дисперсии и не подходят, если деревья достаточно просты.

Я бы ожидал, что лес будет работать в сравнении с SVM с линейным ядром.

SVM будет склоняться к тому, чтобы набрать больше, потому что он не может быть ансамблем.

Если вы не используете перекрестные проверки какого-либо рода. При минимальном измерении производительности по невидимым данным с использованием схемы тестирования/тренировки, чем я мог видеть, что вы получаете такой результат.

Вернитесь назад и убедитесь, что производительность измерена по невидимым данным, и, скорее всего, вы увидите, что радиочастота работает более сравнимо.

Удачи.