Проблема: мне нужно обучить классификатор (в matlab), чтобы классифицировать несколько уровней шума сигнала.Sklearn SVM vs Matlab SVM
Итак, я тренировал мульти-класс SVM в Matlab с использованием fitcecoc и получил точность 92%.
Затем я тренировал многоклассовый SVM, используя sklearn.svm.svc в python, но кажется, что, однако, я играю с параметрами, я не могу добиться более 69% точности.
30% данных было задержано и использовано для проверки обучения. матрицы смешения можно увидеть ниже.
Так что, если кто-нибудь имеет некоторый опыт или предложения с svm.svc мультиклассируют обучения и может видеть проблему в моем коде, или есть предложение было бы весьма признателен.
Python код:
import numpy as np
from sklearn import svm
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import train_test_split
#from sklearn import preprocessing
#### SET fitting parameters here
C = 100
gamma = 1e-8
#### SET WEIGHTS HERE
C0_Weight = 1*C
C1_weight = 1*C
C2_weight = 1*C
C3_weight = 1*C
C4_weight = 1*C
#####
X = np.genfromtxt('data/features.csv', delimiter=',')
Y = np.genfromtxt('data/targets.csv', delimiter=',')
print 'feature data is of size: ' + str(X.shape)
print 'target data is of size: ' + str(Y.shape)
# SPLIT X AND Y INTO TRAINING AND TEST SET
test_size = 0.3
X_train, x_test, Y_train, y_test = train_test_split(X, Y,
... test_size=test_size, random_state=0)
svc = svm.SVC(C=C,kernel='rbf', gamma=gamma, class_weight = {0:C0_Weight,
... 1:C1_weight, 2:C2_weight, 3:C3_weight, 4:C4_weight},cache_size = 1000)
svc.fit(X_train, Y_train)
scores = cross_val_score(svc, X_train, Y_train, cv=10)
print scores
print("Accuracy: %0.2f (+/- %0.2f)" % (scores.mean(), scores.std() * 2))
Out = svc.predict(x_test)
np.savetxt("data/testPredictions.csv", Out, delimiter=",")
np.savetxt("data/testTargets.csv", y_test, delimiter=",")
# calculate accuracy in test data
Hits = 0
HitsOverlap = 0
for idx, val in enumerate(Out):
Hits += int(y_test[idx]==Out[idx])
HitsOverlap += int(y_test[idx]==Out[idx]) + int(y_test[idx]==
... (Out[idx]-1)) + int(y_test[idx]==(Out[idx]+1))
print "Accuracy in testset: ", Hits*100/(11595*test_size)
print "Accuracy in testset w. overlap: ", HitsOverlap*100/(11595*test_size)
для тех, кому интересно, как я получил параметры, они были найдены с GridSearchCV (и увеличить точность от 40% до 69)
Любая помощь или предложения очень ценится ,