Заказ учебного набора данных в weka

Я новичок в weka, и в настоящее время я выполняю некоторые алгоритмы классификации на созданном наборе данных.Заказ учебного набора данных в weka

Набор данных содержит класс {player1, player2, player3} и его образцы сортируются по последовательности игроков.

Например:

2,748.564,384.103,1.389,0.395,2354.950,0,1858.400,0.353,5, Player_1 1,729.143,391.086,1.479,0.378,2677.350,0,1496.900,0.333,3, Player_1 2,719.765,391.824,1.295,0.469,2659.625,0,1889.429,0.250,2, Player_1 1,726.515,388.121,1,506,0,360,2236,200,1431,800,0,364,4, Player_2 2,733.667,387.000,1.241,0.405,2612.450 , 0,2322,400,0,444,5, Player_2 1,744,343,380,000,1,516,0,366,2461,500,0,1455,050,0,417,3, Player_2 2,729.500,387.167,1.336,0.422,2150.167,0,2092.000,0,429,1, Player_3 1,734.100,398.700,1.522,0.311,2403.500,0,1497.550, 0.214,3, Player_3

Я понял, что если я случайно изменить этот порядок,

, например: 1,734.100,398.700,1.522,0.311,2403.500,0,1497.550,0.214,3, Player_3 2,748.564, 384,103,1,389,0,395,2354,950,0,1858,400,0,353,5, Player_1 1,726,515,388,121,1,506,0,360,2236,200,1431,800,0,364,4, Player_2 2,733,667,387,000,1,241,0,405,2612,450,0, 2322.400,0.444,5, Player_2 2,742.300,394.600,1.514,0.388,2530.833,0,1454.000,1.000,1, Player_3 .....

это будет обычно АРР Эффективность классификаторов. Может кто-нибудь объяснить мне, почему это происходит? В качестве классификаторов я использовал NaiveBayes, RandomForest и LMT.

Спасибо заранее, Наполеон

источник

2014-10-21 Napoleon

не могли бы вы объяснить сценарий более подробно –

Да, конечно. У меня есть данные от разных игроков, и я хочу построить модель и протестировать ее (то есть спрогнозировать класс Player). Первоначально набор учебных материалов содержит данные, отсортированные по классу Player. Затем я использую классификатор и запускаю 10 CV для вывода производительности и прогнозов. Однако, если я смешиваю вышеуказанные данные в наборе учебных данных (то есть создавайте набор данных, который не сортируется классом Player), это влияет на производительность классификатора. – Napoleon

Данные, отсортированные по классу Player, означают, что строки Player_1 будут представлены как первые, затем строки Player_2 и, наконец, строки Player_3. Если я смешиваю строки как: некоторые из строк Player_1, а затем некоторые из строк Player_3, некоторые из Player_1 и т. Д., Это влияет на точность предсказания. – Napoleon

Изменение параметра CV складках, на CV Random Seed или порядок данных будет влиять на точность ваших классификаторов.

Перед подготовкой ваших классификаторов ваши данные распределены случайным образом на набор для обучения или тестирования в соответствии с алгоритмом кросс-валидации. По этой причине изменение CV Folds даст больше или меньше данных для обучения, что приведет к другому результату. Изменение семени даст различное распределение данных каждый раз, когда подается другое значение. Аналогичным образом, если вы измените порядок данных и сохраните семя, для обучения будут использоваться те же индексы строк, но данные будут в другом порядке, что приведет к различным результатам.

источник

2014-10-21 22:38:49

Заказ учебного набора данных в weka

ответ

Смежные вопросы