2010-02-06 3 views
5

Есть ли алгоритмы сравнения данных? Сравнение с точки зрения производительности, точности и требуемого объема данных для создания надежной модели. Кажется, что алгоритмы обучения в ансамбле, такие как мешок и подгонка, считаются наиболее точными в данный момент. У меня нет конкретной проблемы для решения. Это всего лишь теоретический вопрос.Сравнение алгоритмов интеллектуального анализа данных

ответ

8

Вам следует искать в Интернете справочные материалы по интеллектуальному анализу данных.

Адрес: Top Ten Algorithms in Data Mining, который дает рейтинг вместо бок о бок. (Возможно, это, хотя, я не просмотрел газету).

3

Очень сложно сравнивать алгоритмы машинного обучения в целом с точки зрения надежности и точности. Однако можно изучить некоторые из их плюсов и минусов. Ниже я рассмотрю несколько наиболее известных алгоритмов машинного обучения (это ни в коем случае не полная информация о вещах, просто мое мнение):

Деревья принятия решений: наиболее заметно алгоритм C4.5. Они имеют преимущество в создании легко интерпретируемой модели. Однако они подвержены переобучению. Существует много вариантов.

Байесовские сети имеют сильные статистические корни. Они особенно полезны в тех областях, где вывод делается по неполным данным.

Искусственные нейронные сети широко используются и обладают мощной техникой. Теоретически они могут аппроксимировать любую произвольную функцию. Однако они требуют настройки большого количества параметров (структура сети, количество узлов, функции активации, ..). Также у них есть недостаток работы как черный ящик (трудно интерпретировать модель)

Поддержка векторной машины, возможно, считается одной из самых мощных технологий. Используя знаменитый трюк ядра, теоретически всегда можно достичь 100% -ной разделимости. В отличие от ANN, они стремятся оптимизировать однозначно разрешимую задачу (без локальных минимумов). Однако они могут быть интенсивными с точки зрения вычислительной мощности и сложными для применения к крупным наборам данных. SVM, безусловно, являются открытой областью исследований.

Тогда есть класс алгоритмов метаобучения, таких как методы обучения в ансамбле, такие как мешковатость, усиление, укладка и т. Д. Они сами по себе не полны, а скорее используются как способы улучшения и комбинирования других алгоритмов.

В конце концов я должен упомянуть, что алгоритм не лучше другого в целом и что решение о выборе в значительной степени зависит от того, в каком домене мы находимся, а также от данных и того, как он предварительно обрабатывается многими другими факторами. .

+4

Согласовано на предметную зависимость. Я считаю, что «Нет бесплатной обеденной теоремы» являются волшебными словами здесь. – mcdowella

2

ROC curves были полезны для оценки методов машинного обучения и, в частности, для сравнения и оценки различных алгоритмов классификации. Вы можете найти это полезным introduction to ROC analysis.

0

В соответствии с вашим вопросом вы, кажется, интересуетесь алгоритмами классификации. Во-первых, я хотел бы сообщить вам, что интеллектуальный анализ данных не ограничивается только классификацией. Есть несколько других задач интеллектуального анализа данных, таких как частые шаблоны разработки, кластеризация и т. Д.

Чтобы ответить на ваш вопрос, производительность зависит от алгоритма, но и от набора данных. Для некоторых наборов данных некоторые алгоритмы могут давать лучшую точность, чем для некоторых других наборов данных. Помимо классических алгоритмов классификации, описанных в большинстве книг по интеллектуальному анализу (C4.5 и т. Д.), На эти темы опубликовано много научных работ. Если вы хотите знать, какие алгоритмы обычно лучше работают сейчас, я бы предложил прочитать исследовательские работы.Обычно исследовательские документы предлагают сравнение производительности с предыдущими алгоритмами. Но, как я уже сказал, производительность может зависеть от ваших данных. Поэтому вам, возможно, придется попробовать алгоритмы, чтобы это выяснить!

Смежные вопросы