Я следую yhat's tutorial on predictive analytics, но я столкнулся с некоторыми проблемами, когда достиг уровня перекрестной проверки. Всякий раз, когда я пытаюсь выполнить эти две части кода, Jupyter застревает на этапе выполнения. Вот проблематичные входы: Input 1Блокнот Jupyter не исполняется
from sklearn.cross_validation import KFold
def run_cv(X,y,clf_class,**kwargs):
# Construct a kfolds object
kf = KFold(len(y),n_folds=5,shuffle=True)
y_pred = y.copy()
# Iterate through folds
for train_index, test_index in kf:
X_train, X_test = X[train_index], X[test_index]
y_train = y[train_index]
# Initialize a classifier with key word arguments
clf = clf_class(**kwargs)
clf.fit(X_train,y_train)
y_pred[test_index] = clf.predict(X_test)
return y_pred
В следующем входе я на самом деле попробовать и сравнить три алгоритма - Input 2:
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier as RF
from sklearn.neighbors import KNeighborsClassifier as KNN
def accuracy(y_true,y_pred):
# NumPy interprets True and False as 1. and 0.
return np.mean(y_true == y_pred)
print "Support vector machines:"
print "%.3f" % accuracy(y, run_cv(X,y,SVC))
print "Random forest:"
print "%.3f" % accuracy(y, run_cv(X,y,RF))
print "K-nearest-neighbors:"
print "%.3f" % accuracy(y, run_cv(X,y,KNN))
Есть ли что-то случилось с моим кодом или это Jupyter вопрос?
SVM занимает много времени ... какова ваша форма данных? – hashcode55
И по умолчанию он использует ядро rbf, я избегаю использовать SVM с ядром из-за этого, попробуйте использовать линейный SVC. – hashcode55
Я не уверен, что знаю, что вы подразумеваете под формой данных. Тем не менее, я могу сказать, что мой тренировочный набор составляет около 54 тыс. Строк с 6 функциями. Кроме того, сколько времени это займет? Мы говорим несколько минут? – DBE7