Я новичок в weka, и в настоящее время я выполняю некоторые алгоритмы классификации на созданном наборе данных.Заказ учебного набора данных в weka
Набор данных содержит класс {player1, player2, player3} и его образцы сортируются по последовательности игроков.
Например:
2,748.564,384.103,1.389,0.395,2354.950,0,1858.400,0.353,5, Player_1 1,729.143,391.086,1.479,0.378,2677.350,0,1496.900,0.333,3, Player_1 2,719.765,391.824,1.295,0.469,2659.625,0,1889.429,0.250,2, Player_1 1,726.515,388.121,1,506,0,360,2236,200,1431,800,0,364,4, Player_2 2,733.667,387.000,1.241,0.405,2612.450 , 0,2322,400,0,444,5, Player_2 1,744,343,380,000,1,516,0,366,2461,500,0,1455,050,0,417,3, Player_2 2,729.500,387.167,1.336,0.422,2150.167,0,2092.000,0,429,1, Player_3 1,734.100,398.700,1.522,0.311,2403.500,0,1497.550, 0.214,3, Player_3
Я понял, что если я случайно изменить этот порядок,
, например: 1,734.100,398.700,1.522,0.311,2403.500,0,1497.550,0.214,3, Player_3 2,748.564, 384,103,1,389,0,395,2354,950,0,1858,400,0,353,5, Player_1 1,726,515,388,121,1,506,0,360,2236,200,1431,800,0,364,4, Player_2 2,733,667,387,000,1,241,0,405,2612,450,0, 2322.400,0.444,5, Player_2 2,742.300,394.600,1.514,0.388,2530.833,0,1454.000,1.000,1, Player_3 .....
это будет обычно АРР Эффективность классификаторов. Может кто-нибудь объяснить мне, почему это происходит? В качестве классификаторов я использовал NaiveBayes, RandomForest и LMT.
Спасибо заранее, Наполеон
не могли бы вы объяснить сценарий более подробно –
Да, конечно. У меня есть данные от разных игроков, и я хочу построить модель и протестировать ее (то есть спрогнозировать класс Player). Первоначально набор учебных материалов содержит данные, отсортированные по классу Player. Затем я использую классификатор и запускаю 10 CV для вывода производительности и прогнозов. Однако, если я смешиваю вышеуказанные данные в наборе учебных данных (то есть создавайте набор данных, который не сортируется классом Player), это влияет на производительность классификатора. – Napoleon
Данные, отсортированные по классу Player, означают, что строки Player_1 будут представлены как первые, затем строки Player_2 и, наконец, строки Player_3. Если я смешиваю строки как: некоторые из строк Player_1, а затем некоторые из строк Player_3, некоторые из Player_1 и т. Д., Это влияет на точность предсказания. – Napoleon