У меня есть несбалансированные данные по обучению, и я использую логистическую регрессию в weka для классификации.Как классифицировать несбалансированные данные в weka?
Есть два класса хорошо и плохо. Хорошее имеет 75000 экземпляров и плохое 3000. Мои данные теста имеют 10000 хороших данных.
Когда я тренируюсь, он более склонен к хорошим данным, то есть классифицирует почти все плохие примеры. Что мне делать ? Я пытался иметь 10000 хороших примеров в данных для обучения вместо 75000, но проблема такая же.
сложно сказать без информации. у вас все еще есть анонимный уникальный идентификатор в вашем наборе данных? если это так, удалите этот атрибут. – knb