0

Могу ли я использовать кластеризацию (например, используя k-средства), чтобы делать прогнозы в Weka?Использование кластеризации для прогнозирования в Weka

У меня есть некоторые данные, основанные на исследованиях для президентских выборов. У меня есть ответы на вопросники (числовые атрибуты), и у меня есть один атрибут, который является ответом на вопрос Кто вы собираетесь голосовать? (1, 2 или 3)

Я делаю прогнозы с использованием некоторых классификаторов (например, Байес) в Веке. Мои результаты основаны на этом ответе (намерении на голосование), и у меня около 60% ответов (скорость правильных прогнозов).

Я понимаю, что кластеризация - это совсем другое дело, но могу ли я использовать кластеризацию для прогнозирования? Я уже так пробовал, но я понял, что кластеризация всегда выбирает собственные центроиды и не использует мой вопрос о намерении голоса.

ответ

3

Explain results of K-means

должен быть ваш коллега. Кажется, он использует тот же набор данных, и было бы полезно, если бы мы все могли посмотреть на данные.

В целом кластеризация не является классификацией или прогнозом.

Однако вы можете попробовать улучшить свою классификацию, используя информацию, полученную в результате кластеризации. Две такие методы:

  • заменяют ваш набор данных с кластерными центрами, и использовать это для классификации
  • поезд отдельный классификатор на каждой (по крайней мере, если ваши кластеры достаточно чистый WRT на этикетке класса.!) кластера и построить из них ансамбль (в частности, если ваши кластеры неоднородны)

Но я верю, что ваше понимание классификации или кластеризации еще недостаточно далеко, чтобы опробовать их. Вы должны тщательно их обрабатывать и хорошо знать свои данные.

+0

Да, мое понимание еще не очень хорошо. Могу ли я сделать что-то легкое с помощью Weka? Есть ли какие-нибудь учебники где-то для того, чтобы делать то, что я хочу? – Dchris

+0

Ну, есть книга Weka ... это действительно хорошая книга, используйте ее! –

+0

- это то, что книга? http://www.cs.waikato.ac.nz/ml/weka/book.html – Dchris

0

Да. Вы можете использовать интерфейс Weka для прогнозирования с помощью кластеризации. Сначала загрузите свои данные обучения, используя вкладку Preprocess . Затем перейдите на вкладку КЛАССИФИЦИРУЙТЕ под классификатором, нажмите выбрать и под мета, выберите ClassificationViaClustering. Алгоритм кластеризации по умолчанию, используемый weka, является SimpleKMean, но вы можете изменить его на , нажав на строку опций (т. Е. Текст рядом с кнопкой выбора), и weka отобразит окно сообщения, нажмите , выберите и набор алгоритмов кластеризации будут перечислены на выбор (например, EM). После этого вы можете выполнить кросс-проверку или загрузить тестовые данные, щелкнув по настройке, как обычно, когда вы используете weka для классификации.

Надеюсь, это поможет любому, у кого будет тот же вопрос!

Смежные вопросы