2014-12-02 6 views
1

Я новичок в анализе данных и машинного обучения. Я пытаюсь сравнить использование анализа прогноза и кластеризации с использованием RapidMiner и Weka для моего обучения в колледже.RapidMiner и WEKA: Разный результат кластеризации

Сразу после того, как я изучил преимущества и недостатки обоих инструментов и начал анализировать процесс, я нашел некоторые проблемы. Я попытался выполнить кластеризацию с использованием методов K-means и simpleKmeans для анализа Weka и Regression с использованием LinearRegression, и я не совсем удовлетворен результатом, так как они содержат результат, который значительно отличается от. все это я использовал одни и те же наборы данных. числовые наборы данных.

Я проводил много времени, пытаясь понять что-то, изучая инициализацию каждого алгоритма для каждого инструмента, поскольку интерфейс отличается, и есть некоторые параметры, которые находятся на RapidMiner, но не в Weka или иначе, поэтому я Я немного смущен. (это проблема?)

Несмотря на то, что, по-вашему, неправильно? есть ли какой-то процесс инициализации, который я пропустил? или это потому, что в разных инструментах код отличается, даже если он использует один и тот же алгоритм?

Спасибо за ваш ответ!

ответ

1

Weka часто использует встроенную нормализацию по крайней мере в k-средствах и других алгоритмах.

Убедитесь, что вы отключили это, если хотите, чтобы результаты были сопоставимыми.

Также поймите, что k-означает рандомизированный алгоритм. Ожидаются (и желательно) разные результаты даже из одного пакета.

+0

Спасибо, это просто то, что мне нужно. но как мы его отключили? Я искал в проводнике weka, но я ничего не нашел о том, как отключить его. Помимо этого, я сделал несколько поисковых запросов Google, и да, я нашел статью, которая объясняет это. но он ничего не сказал о том, какой метод нормализации использует weka. Поскольку я не знаю, как отключить его, я пытался добавить оператор нормализации в RapidMiner и пытался с каждым доступным методом и все же не сопоставим. У вас есть идея? Я очень ценю ваш отзыв! :) –

+0

IIRC (я не использую Weka много, ELKI намного быстрее), была опция для функции расстояния. –

0

Вы использовали WEKA или расширение WEKA ускорителя? Вы пытались сравнить результаты WEKA с RM WEKA?

+0

Я сам использовал WEKA. да, я тоже это пробовал, и его результат тот же. Так что проблема действительно в том, что алгоритм simpleKmeans в Weka точно так же, как ответил Anony-Mousse. он содержит встроенную нормализацию –