2014-10-21 3 views
1

Я новичок в weka, и в настоящее время я выполняю некоторые алгоритмы классификации на созданном наборе данных.Заказ учебного набора данных в weka

Набор данных содержит класс {player1, player2, player3} и его образцы сортируются по последовательности игроков.

Например:

2,748.564,384.103,1.389,0.395,2354.950,0,1858.400,0.353,5, Player_1 1,729.143,391.086,1.479,0.378,2677.350,0,1496.900,0.333,3, Player_1 2,719.765,391.824,1.295,0.469,2659.625,0,1889.429,0.250,2, Player_1 1,726.515,388.121,1,506,0,360,2236,200,1431,800,0,364,4, Player_2 2,733.667,387.000,1.241,0.405,2612.450 , 0,2322,400,0,444,5, Player_2 1,744,343,380,000,1,516,0,366,2461,500,0,1455,050,0,417,3, Player_2 2,729.500,387.167,1.336,0.422,2150.167,0,2092.000,0,429,1, Player_3 1,734.100,398.700,1.522,0.311,2403.500,0,1497.550, 0.214,3, Player_3

Я понял, что если я случайно изменить этот порядок,

, например: 1,734.100,398.700,1.522,0.311,2403.500,0,1497.550,0.214,3, Player_3 2,748.564, 384,103,1,389,0,395,2354,950,0,1858,400,0,353,5, Player_1 1,726,515,388,121,1,506,0,360,2236,200,1431,800,0,364,4, Player_2 2,733,667,387,000,1,241,0,405,2612,450,0, 2322.400,0.444,5, Player_2 2,742.300,394.600,1.514,0.388,2530.833,0,1454.000,1.000,1, Player_3 .....

это будет обычно АРР Эффективность классификаторов. Может кто-нибудь объяснить мне, почему это происходит? В качестве классификаторов я использовал NaiveBayes, RandomForest и LMT.

Спасибо заранее, Наполеон

+0

не могли бы вы объяснить сценарий более подробно –

+0

Да, конечно. У меня есть данные от разных игроков, и я хочу построить модель и протестировать ее (то есть спрогнозировать класс Player). Первоначально набор учебных материалов содержит данные, отсортированные по классу Player. Затем я использую классификатор и запускаю 10 CV для вывода производительности и прогнозов. Однако, если я смешиваю вышеуказанные данные в наборе учебных данных (то есть создавайте набор данных, который не сортируется классом Player), это влияет на производительность классификатора. – Napoleon

+0

Данные, отсортированные по классу Player, означают, что строки Player_1 будут представлены как первые, затем строки Player_2 и, наконец, строки Player_3. Если я смешиваю строки как: некоторые из строк Player_1, а затем некоторые из строк Player_3, некоторые из Player_1 и т. Д., Это влияет на точность предсказания. – Napoleon

ответ

1

Изменение параметра CV складках, на CV Random Seed или порядок данных будет влиять на точность ваших классификаторов.

Перед подготовкой ваших классификаторов ваши данные распределены случайным образом на набор для обучения или тестирования в соответствии с алгоритмом кросс-валидации. По этой причине изменение CV Folds даст больше или меньше данных для обучения, что приведет к другому результату. Изменение семени даст различное распределение данных каждый раз, когда подается другое значение. Аналогичным образом, если вы измените порядок данных и сохраните семя, для обучения будут использоваться те же индексы строк, но данные будут в другом порядке, что приведет к различным результатам.

Смежные вопросы