для того же тренировочного и тестового datset, точность KNN составляет 0,53, для RandomForest и AdaBoost точность 1, может ли кто-нибудь помочь?sklearn randomforest точность
коды:
## prepare data
begin_date='20140101'
end_date='20160908'
stock_code='000001' #平安银行
data=ts.get_hist_data(stock_code,start=begin_date,end=end_date)
close=data.loc[:,'close']
df=data[:-1]
diff=np.array(close[1:])-np.array(close[:-1])
label=1*(diff>=0)
df.loc[:,'diff']=diff
df.loc[:,'label']=label
#split dataset into trainging and test
df_train=df[df.index<'2016-07-08']
df_test=df[df.index>='2016-07-08']
x_train=df_train[df_train.columns[:-1]]
y_train=df_train['label']
x_test=df_test[df_test.columns[:-1]]
y_test=df_test['label']
##KNN
clf2 = neighbors.KNeighborsClassifier()
clf2.fit(x_train, y_train)
accuracy2 = clf2.score(x_test, y_test)
pred_knn=np.array(clf2.predict(x_test))
#RandomForest
clf3 = RandomForestClassifier(n_estimators=100,n_jobs=-1)
clf3.fit(x_train, y_train)
accuracy3 = clf3.score(x_test, y_test)
pred_rf=np.array(clf3.predict(x_test))
print accuracy1,accuracy2,accuracy3
Это разные оценки. Поэтому неудивительно, что вы получаете разные оценки точности. Ваш вопрос не очень ясен. Вы беспокоитесь о точности вашего randomforest или KNN? Вот несколько советов, которые могут вам помочь: проведите график обучения для всех оценщиков (http://scikit-learn.org/stable/modules/learning_curve.html#learning-curves). Вы можете просто перенастроить свои данные. Кроме того, для лучшей производительности вам необходимо настроить гиперпараметры ваших моделей (http://scikit-learn.org/stable/modules/grid_search.html). – MhFarahani
спасибо MhFarahani! Я полагаю, что лейбл основан на одной из функций, я забыл отказаться от него из наборов данных. ваше предложение сюжета кривой обучения для всех оценок и переобучения по-прежнему полезно для начинающих –