0

У меня есть набор данных ок. 4800 строк с 22 атрибутами, все численные, описывающие в основном геометрию горных пород/минералов и 3 разных класса.Лучшая обучающая модель для данных с высоким численным размером? (с Rapidminer)

Я опробовал перекрестное удостоверение с помощью k-nn модели внутри, с k = 7 и численной величиной -> расстояние по Камберре как набор параметров .. и я получил производительность 82,53% и 0,673 каппа. Является ли этот результат репрезентативным для набора данных? Я имею в виду, что 82% вполне нормально.

Прежде чем это сделать, я оценил наилучшее подмножество атрибутов с таблицей решений, для чего я получил 6 разных атрибутов.

проблема в том, что вы все еще не многому научитесь от таких моделей, как k-nn на основе экземпляров. Могу ли я получить больше информации от knn? Я не знаю, как визуализировать кластеры в этом высокомерном пространстве в Rapidminer, это как-то возможно? Я пробовал дерево решений по данным, но у меня слишком много ветвей (300 или около того), и это выглядело слишком беспорядочно, проблема в том, что все числовые атрибуты имеют примерно одинаковое значение и распределение, поэтому трудно получить отдельное подмножество от значимых атрибутов ...

В идеале персонал хочет «узнать» что-то о данных, но мое впечатление, что вы не можете узнать много значимых данных, все, что работает лучше всего, - это «Blackbox». Neural Nets, SVM и другие модели, основанные на экземплярах ... Как я могу продолжить?

ответ

0

Добро пожаловать в мир машинного обучения! Это звучит как классический реальный случай: мы хотим сделать твердые выводы, но строки данных не взаимодействуют. :-)

Ваша цель расплывчата: «узнать что-то»? Я беру это в виду, что вы расследуете, надеясь найти количественную дискриминацию среди трех классов.

Прежде всего, я настоятельно рекомендую анализ основных компонентов (PCA): выясните, можете ли вы устранить некоторые из этих атрибутов с помощью автоматических операций с матрицами, а не с помощью таблицы решений вручную. Я ожидаю, что беспорядочные филиалы связаны с неудачным выбором факторов; деревья принятия решений очень усложняются при переуплотнении. :-)

Насколько чисты ли разделение наборов данных? Поскольку вы уже использовали Knn, я надеюсь, что у вас плотные кластеры с пробелами. Если это так, возможно, спектральная кластеризация помогла бы; эти методы хороши при классификации данных на основе разрывов между кластерами, даже если формы кластера не являются сферическими. Интерпретация зависит от наличия у кого-то персонала, который может читать собственные векторы, понимать, что означают значения.

Попробуйте multi-class SVM. Начните с 3 классов, но при необходимости увеличивайте до тех пор, пока не появятся 3 ожидаемых класса. (Иногда вы получаете один крошечный класс outlier, а затем объединяете два основных). Полученные в результате функции ядра и размещение пробелов могут научить вас чему-то о ваших данных.

Попробуйте семейство Naive Bayes, особенно если вы заметили, что эти функции исходят из распределения Гаусса или Бернулли.

Как целостный подход, попробуйте нервную сеть, но используйте что-то, чтобы визуализировать нейроны и веса. Позволение человеческой зрительной коре играть с отношениями может помочь извлечь тонкие отношения.

Смежные вопросы