2016-04-07 4 views
3

Воспитал RandomForest как это (Спарк 1.6.0)Спарк RandomForest классификатор numClasses

val numClasses = 4 // 0-2 
val categoricalFeaturesInfo = Map[Int, Int]() 
val numTrees = 9 
val featureSubsetStrategy = "auto" // Let the algorithm choose. 
val impurity = "gini" 
val maxDepth = 6 
val maxBins = 32 

val model = RandomForest.trainClassifier(trainRDD, numClasses, 
             categoricalFeaturesInfo, numTrees, 
             featureSubsetStrategy, impurity, 
             maxDepth, maxBins) 

ввода меток:

labels = labeledRDD.map(lambda lp: lp.label).distinct().collect() 
for label in sorted(labels): 
    print label 

0.0 
1.0 
2.0 

Но выход содержат только только два класса:

metrics = MulticlassMetrics(labelsAndPredictions) 
df_confusion = metrics.confusionMatrix() 
display_cm(df_confusion) 

Выход:

83017.0 81.0 0.0 
8703.0 2609.0 0.0 
10232.0 255.0 0.0 

Выход из когда я загружаю ту же модель в pyspark и запустить его с другими данными (части выше)

DenseMatrix([[ 1.75280000e+04, 3.26000000e+02], 
      [ 3.00000000e+00, 1.27400000e+03]]) 
+1

Это PyScala? – eliasah

+0

Я не могу воспроизвести это или, по крайней мере, нет ничего плохого в матрице замешательства, которую я получаю. И у вас на самом деле есть 3 класса :) – zero323

+0

@ zero323 я сохранил его и загрузил его между ними. возможно, это. Можете ли вы опубликовать свое воспроизведение? – oluies

ответ

0

Это стало лучше ... Я использовал корреляции Пирсона, чтобы выяснить, какие столбцы сделал не имеют никакой корреляции. Удаляет десять низкие коррелирующие столбцы и теперь я получаю ОК результаты:

enter image description here

Test Error = 0.0401823 
precision = 0.959818 
Recall = 0.959818 

ConfusionMatrix([[ 17323.,  0., 359.], 
       [  0., 1430.,  92.], 
       [ 208., 170., 1049.]]) 

enter image description here

+0

вы можете предоставить некоторые входные данные, чтобы все это имело смысл? – eliasah

+1

Является первым обучающим комплектом из набора данных моделирования деградации турбофанских двигателей http://ti.arc.nasa.gov/tech/dash/pcoe/prognostic-data-repository/ – oluies

+0

Прохладный, мне любопытно воспроизвести проблему! Спасибо – eliasah

Смежные вопросы