2013-06-24 3 views
1

Я работаю над проблемой классификации, которая имеет разные датчики. Каждый датчик собирает множество числовых значений.Использование weka для классификации данных датчика

Я думаю, что это проблема классификации и вы хотите использовать weka как инструмент ML для этой проблемы. Но я не уверен, как использовать weka для обработки входных значений? И какой классификатор лучше всего подходит для этой проблемы (один экземпляр функции - это набор числового значения)?

Например, у меня есть три датчика A, B, C. Могу ли я определить 5 собранных данных от всех датчиков, как один экземпляр? Например, один экземпляр A - {1,2,3,4,5,6,7}, а один экземпляр B - {34434342135,5,4,7). С {424,24,24,13,24,5,6}.

Большое спасибо за ваше время на рассмотрение моего вопроса.

+1

Что вы хотите предсказать? Каковы исходные данные для вашего прогноза? –

+0

Входные данные представляют собой различные данные датчиков, которые являются численными значениями. Выходные данные являются номинальными. Спасибо – Foreverniu

ответ

5

Обычно первый классификатор, который нужно попробовать, это Naive Bayes (вы можете найти его в каталоге «Байес» в Weka), потому что он быстрый, параметр меньше, и точность классификации трудно превзойти, когда учебный образец мал.

Random Forest (вы можете найти его в разделе «Дерево» в Weka) - еще один приятный классификатор, поскольку он обрабатывает практически любые данные. Просто запустите его и посмотрите, дает ли он лучшие результаты. Это может быть просто необходимо, чтобы увеличить количество деревьев от значения по умолчанию 10 до некоторого более высокого значения. Поскольку у вас есть 7 атрибутов, должно быть достаточно 100 деревьев.

Тогда я хотел бы попробовать K-NN (вы можете найти его в каталоге «Ленивый» в Weka, и это называется «ИБК»), потому что она обычно занимает СУММА лучшие одиночные классификаторы для широкого спектра наборов данных. Единственными проблемами с k-nn являются то, что он плохо масштабируется для больших наборов данных (> 1 ГБ), и ему нужно тонко настроить k, количество соседей. Это значение по умолчанию установлено в 1, но с увеличением количества обучающих образцов обычно лучше установить его на некоторое большее целочисленное значение в диапазоне от 2 до 60.

И, наконец, для некоторых наборов данных, где оба, Наивные байесовские и k -nn работает плохо, лучше использовать SVM (в разделе «Функции» это называется «Lib SVM»). Однако для достижения конкурентных результатов может возникнуть проблема с настройкой всех параметров SVM. Поэтому я оставляю это до конца, когда я уже знаю, какую точность классификации ожидать. Этот классификатор может быть не самым удобным, если у вас есть более двух классов для классификации.

+0

Спасибо. Ваш ответ очень полезен – Foreverniu

+0

Как насчет нейронных сетей? Вы говорите, что случайные леса хороши для всех видов данных, для которых алгоритм это неправда? Благодаря ! –