У меня проблема классификации с несколькими классами в наборе данных (с 6 целевыми классами). Данные обучения имеют искаженное распределение меток классов: Ниже приведено распределение каждого из класса меток (1 до 6)Практические рекомендации по установке весов для примеров в vowpal wabbit
(array([174171, 12, 29, 8285, 9996, 11128]),
Я использую схему OAa vowpal Wabbit, чтобы классифицировать и попытался вес по умолчанию 1.0 для каждого примера. Однако для большинства моделей это просто приводит к модели, предсказывающей 1.0 для всех примеров в оценке (поскольку метка 1 имеет очень большое представление в наборе обучения).
Я пытаюсь экспериментировать с различными весами, которые я могу применить к примерам каждого класса, чтобы повысить производительность классификатора.
Любые указатели или практические советы по методам определения веса каждого примера были бы очень полезными. Один из возможных способов - взвешивать пример в обратном соотношении в соответствии с их частотой. К сожалению, это, по-видимому, приводит к тому, что классификатор сильно привязан к меткам 2 и 3 и предсказывает 2 и 3 для почти всего в оценке.
Будет ли выбор модели играть роль в определении веса. Я экспериментирую с нейронными сетями и функциями логистики и потери петли.