У меня есть проблема классификации, где мои метки имеют рейтинги, 0 - 100, с шагом 1 (например, 1, 2, 3, 4,).Классификация с несколькими метками, включающая диапазон чисел в виде меток
У меня есть набор данных, где каждая строка имеет имя, текстовое тело и рейтинг (0 - 100).
Из текстового корпуса Я пытаюсь извлечь функции, которые я могу передать в свой классификатор, который выведет соответствующий рейтинг для каждой строки (0 - 100).
Для выбора функции, я собираюсь начать с основного мешка слов. Однако мой вопрос заключается в алгоритме классификации. Есть ли алгоритм классификации в sci-kit learn, который поддерживает эту проблему?
Я читал http://scikit-learn.org/stable/modules/multiclass.html, но описанные алгоритмы, похоже, поддерживают ярлыки, которые полностью дискретны, тогда как у меня есть набор непрерывных меток.
EDIT: А как насчет случая, когда я буду бить мои оценки? Например, у меня может быть 10 меток, каждый из которых равен 1-10.
Если вы признаете, что ваши классы непрерывны, почему бы не использовать регрессию? –
А, я не знаком с регрессией, похоже, что это естественное решение этой проблемы? – jeffrey
Да, когда ваша целевая переменная является своего рода непрерывным значением, где отклонения не имеют значения (можно прогнозировать 36 вместо 37, но предсказать не 90, а не 11). То, что вы действительно хотите сделать, - это свести к минимуму вероятность предсказания неправильной стоимости, но вероятность предсказания отдаленной ценности. И для этого используются алгоритмы регрессии. Любой алгоритм, имя которого заканчивается с помощью Regressor, будет работать. –