2015-04-09 3 views
0

У меня есть 73 841 экземпляр данных из 17 классов, которые я использую для обучения классификатора с WEKA. Данные были отфильтрованы с использованием FFT, и каждый экземпляр имеет три точки.Weka Классификатор Точность

I.e. 85724.5409, 40953.2485, 3204935, 4539024.002345, ?/class 

Я пробовал три классификатора: SMO/J48/Naive Bayes.

СМО/Наивные Байеса достигают скорости точности 16%

Но J48 классификатор производит ставку точности, 98/99%.

Вопросы:

  1. Могу ли я с уверенностью предположить, что J48 классификатор делает какую-то ошибку? Как два результата могут быть одинаковыми, а другие совершенно разные?

  2. Что я могу сделать для повышения точности? Есть ли слишком много классов, классы просто не разделяются?

Благодаря

+0

Пожалуйста разместить mcve: http://stackoverflow.com/help/mcve –

+0

Думаю, что я сделал это немного лучше? – user3089

ответ

1

я сильно думаю, что выход дерева решений является неточной.

Можете ли вы предоставить генерируемое дерево или верхние 10 узлов, чтобы узнать, что представляет собой точная проблема.

Вот некоторые из мер, которые я предлагаю повысить точность.

  • Размер класса: 17 классов действительно большие. Попробуйте уменьшить, объединив аналогичные классы. (Выполняется только в том случае, если это не влияет на сферу действия проекта.)
  • Классификатор без линкера: Поскольку у вас есть 17 классов, линейного классификатора, такого как Naive Bayes/Decision Tree, будет недостаточно. Пробовали ли вы какие-либо нелинейные исследования SVM или ансамбля, такие как Random Forest. Если для каждого из 17 классов будет достаточно набора данных, то HMM станет хорошим выбором для лучшей классификации.

Спасибо, Aravi