У меня есть набор данных ок. 4800 строк с 22 атрибутами, все численные, описывающие в основном геометрию горных пород/минералов и 3 разных класса.Лучшая обучающая модель для данных с высоким численным размером? (с Rapidminer)
Я опробовал перекрестное удостоверение с помощью k-nn модели внутри, с k = 7 и численной величиной -> расстояние по Камберре как набор параметров .. и я получил производительность 82,53% и 0,673 каппа. Является ли этот результат репрезентативным для набора данных? Я имею в виду, что 82% вполне нормально.
Прежде чем это сделать, я оценил наилучшее подмножество атрибутов с таблицей решений, для чего я получил 6 разных атрибутов.
проблема в том, что вы все еще не многому научитесь от таких моделей, как k-nn на основе экземпляров. Могу ли я получить больше информации от knn? Я не знаю, как визуализировать кластеры в этом высокомерном пространстве в Rapidminer, это как-то возможно? Я пробовал дерево решений по данным, но у меня слишком много ветвей (300 или около того), и это выглядело слишком беспорядочно, проблема в том, что все числовые атрибуты имеют примерно одинаковое значение и распределение, поэтому трудно получить отдельное подмножество от значимых атрибутов ...
В идеале персонал хочет «узнать» что-то о данных, но мое впечатление, что вы не можете узнать много значимых данных, все, что работает лучше всего, - это «Blackbox». Neural Nets, SVM и другие модели, основанные на экземплярах ... Как я могу продолжить?