2016-05-24 4 views
0

Во время неконтролируемого обучения мы проводим кластерный анализ (например, K-Means), чтобы вывести данные в несколько кластеров.
Но каково использование данных кластеризованных данных в практическом сценарии.Какова важность кластеризации?

Я думаю, что во время кластеризации мы теряем информацию о данных.
Есть ли практические примеры, когда кластеризация может быть полезной?

ответ

1

Потеря информации может быть преднамеренной. Вот три примера:

  • Количественная оценка сигнала ИКМ (публикация k-средств Lloyd's). Вы знаете, что определенное количество (скажем, 10) разных сигналов передается, но с искажением. Количественная обработка устраняет искажения и повторно извлекает исходные 10 различных сигналов. Здесь вы теряете ошибку и сохраняете сигнал.
  • Цветное квантование (см. Википедию). Чтобы уменьшить количество цветов в изображении, довольно хороший метод использует k-средство (обычно в области HSV или Lab). k - количество желаемых цветов. Потеря информации здесь преднамеренная, лучше компресс изображение. k-означает попытки найти аппроксимацию изображения с наименьшей квадратичной погрешностью только с k цветами.
  • При поиске мотивов во временных рядах вы также можете использовать квантование, такое как k-означает, что преобразует ваши данные в символическое представление. Подход к визуальным словам, который был современным для распознавания образов до глубокого обучения, также использовал это.
  • Изучение интеллектуального анализа данных (кластеризация - можно утверждать, что вышеприведенные варианты использования - это не интеллектуальный анализ данных/кластеризация, а квантование). Если у вас есть набор данных миллионов пунктов, в каких точках вы собираетесь расследовать? методы кластеризации пытаются разбить данные на группы, которые должны быть более однородными внутри и более разными для других. Thrn вам не нужно смотреть на каждый объект, но только на около каждого кластера, чтобы, надеюсь, узнать что-то о целом кластере (и весь ваш набор данных). Методы Centroid, такие как k-средние, даже могут служить «прототипом» для каждого кластера, хотя это хорошая идея также освещать другие точки в кластере. Вы также можете захотеть обнаружить outlier и посмотреть на некоторые из необычных объектов. Этот сценарий находится где-то между образцами выборки объектов и , уменьшая размер набора данных, чтобы стать более управляемым. Ключевое отличие от вышеуказанных пунктов состоит в том, что результат обычно не «операционален» автоматически, а потому, что результаты поисковой кластеризации слишком ненадежны (и, следовательно, требуют много итераций), нужно анализировать вручную.
Смежные вопросы