I beieve SGDClassifier()
с loss='log'
поддерживает многоуровневую классификацию, и мне не нужно использовать OneVsRestClassifier. Check thisscikit multilabel классификация: ValueError: плохая форма ввода
Теперь, мой набор данных довольно большой, и я использую HashingVectorizer
и передавая результаты в качестве входных данных SGDClassifier
. Моя цель имеет 42048 функций.
Когда я запускаю это следующим образом:
clf.partial_fit(X_train_batch, y)
я получаю: ValueError: bad input shape (300000, 42048)
.
Я также использовал классы в качестве параметра следующим образом, но все тот же вопрос.
clf.partial_fit(X_train_batch, y, classes=np.arange(42048))
В документации SGDClassifier, он говорит y : numpy array of shape [n_samples]
Каковы формы 'X_train_batch' и' y'? – bogatron
(300000, 1048576) и (300000, 42048) соответственно, оба являются scipy разреженной матрицей – user644745