2012-03-02 6 views
4

Я пытаюсь использовать систему MCS (Multi classifier), чтобы улучшить работу с ограниченными данными, а затем стать более точным.Изучение ансамбля, система множественного классификатора

В настоящее время я использую кластеризацию K-средних, но вы можете пойти с FCM (Fuzzy c-means) с тем, что данные группируются в группы (кластеры), данные могут представлять что угодно, например, цвета. Сначала я группирую данные после предварительной обработки и нормализации и получаю несколько разных кластеров с большим промежутком между ними. Затем я продолжаю использовать кластеры в качестве данных для классификатора Байеса, каждый кластер представляет собой отдельный цвет, и классификатор Байеса обучается, а данные из кластеров затем передаются через отдельные классификаторы Байеса. Каждый классификатор Байеса обучается только в одном цвете. Если принять цветовой спектр 3 - 10 как синий 13 - 20 как красный, а спектр между 0 - 3 будет белым до 1,5, а затем постепенно поменяться синим на 1,5 - 3 и тем же - с синего на красный.

Что я хотел бы знать, как и какой метод агрегации (если это то, что вы использовали бы) может применяться, чтобы классификатор Байеса мог стать сильнее и как он работает? Может ли метод агрегирования уже знать ответ или это будет человеческое взаимодействие, которое корректирует результаты, а затем эти ответы возвращаются в данные обучения Байеса? Или сочетание обоих? Глядя на агрегацию Bootstrap, это связано с тем, что каждая модель в ансамбле голосует с одинаковым весом, поэтому не совсем уверен в этом конкретном случае, я бы использовал мешок в качестве моего метода агрегирования? Тем не менее, усиление предполагает постепенное построение ансамбля путем обучения каждого экземпляра новой модели, чтобы подчеркнуть примеры обучения, которые предыдущие модели были неправильно классифицированы, но не уверен, что это будет лучшей альтернативой мешке, поскольку я не уверен, как она постепенно основывается на новых экземплярах? И последним было бы усреднение по байесовской модели, которое представляет собой ансамблевую технику, которая стремится аппроксимировать Байесовский оптимальный классификатор путем отбора гипотез из пространства гипотез и объединения их с использованием закона Байеса, однако совершенно неуверенного в том, как вы могли бы отбирать гипотезы из пространства поиска?

Я знаю, что обычно вы используете конкурентный подход для отскока между двумя алгоритмами классификации, каждый говорит, что да, говорят, может быть, взвешивание может быть применено, и если оно правильно, вы получите лучшее из обоих классификаторов, но ради сохранения я не хочу конкурентный подход.

Другой вопрос заключается в том, чтобы использовать эти два метода таким образом, было бы полезно, я знаю, что приведенный мной пример очень примитивен и может не применяться в этом примере, но может ли он быть полезным в более сложных данных.

+0

Я думаю, вы получите ответы на dsp-плате – Ali

+0

Привет, извините, что такое плата dsp, обработка сигнала? –

+0

Yep http://dsp.stackexchange.com/ – Ali

ответ

3

У меня есть несколько вопросов о методе вы следующие:

  1. K-средства вкладывают в каждом кластере точек, которые наиболее близко к нему. А затем вы тренируете классификатор, используя выходные данные. Я думаю, что классификатор может превзойти кластерную неявную классификацию, но только с учетом количества выборок в каждом кластере. Например, если ваши данные обучения после кластеризации имеют тип A (60%), тип B (20%), тип C (20%); ваш классификатор предпочтет использовать неоднозначные выборки для typeA, чтобы получить меньше ошибок классификации.
  2. K-средство зависит от того, какие «координаты»/«функции» вы берете с объектов. Если вы используете функции, где смешиваются объекты разных типов, производительность K-средств будет уменьшаться. Удаление этих функций из вектор-функции может улучшить ваши результаты.
  3. Ваша «функция»/«координаты», которые представляют объекты, которые вы хотите классифицировать, может быть измерена в разных единицах измерения. Этот факт может повлиять на ваш алгоритм кластеризации, поскольку вы неявно устанавливаете преобразование единиц между ними через функцию ошибки кластеризации. Окончательный набор кластеров выбирается с несколькими испытаниями кластеризации (которые были получены при различных инициализациях кластера), используя функцию ошибки.Таким образом, неявное сравнение делается на разных координатах вашего вектор-объекта (потенциально представляя неявный коэффициент преобразования).

Принимая во внимание эти три точки, вы, вероятно, увеличите общую производительность вашего алгоритма, добавив этапы предварительной обработки. Например, при распознавании объектов для приложений компьютерного зрения большая часть информации, полученной из изображений, поступает только из границ изображения. Вся информация о цвете и часть информации о текстуре не используются. Границы вычитаются из изображения, обрабатывающего изображение, для получения дескрипторов гистограммы ориентированных градиентов (HOG). Этот дескриптор возвращает «функции»/«координаты», которые лучше разделяют объекты, тем самым повышая эффективность классификации (распознавания объектов). Теоретически дескрипторы выдают информацию, содержащуюся в изображении. Однако они представляют два основных преимущества: а) классификатор будет иметь дело с данными с меньшей размерностью, и (б) дескрипторы, вычисленные из тестовых данных, могут быть более легко сопоставлены с данными обучения.

В вашем случае, я полагаю, что вы пытаетесь улучшить свою точность, принимая подобный подход:

  1. Подари богаче возможность вашего кластерного алгоритм
  2. Воспользуйтесь предварительных знаний в области, чтобы решить, какие функции вы должны добавлять и удалять из вашего вектора признаков
  3. Всегда рассмотреть возможность получения меченых данных, так что контролируемые алгоритмы обучения могут быть применены

Надеюсь, это поможет ...

Смежные вопросы