Как определить заранее ключевые функции из большого набора данных, где большая часть данных попадает под одну категорию, используя контролируемое обучение

У меня очень большой набор данных, извлеченный из машины (данные потока), где большая часть данных попадает под одну категорию , если я тренирую классификатор с использованием текущих данных, точность будет очень низкой. как определить ключевые особенности при предоставлении данных? также как я могу измерить вероятность некоторых предыдущих функций в временном ряду?Как определить заранее ключевые функции из большого набора данных, где большая часть данных попадает под одну категорию, используя контролируемое обучение

источник

2015-06-25 H-alamo

Что для вас означает термин «ключевые функции»? И, скорее всего, любой ответ будет зависеть от используемого вами классификатора, структуры ваших данных и цели вашей системы - ни один из них не указан. – ealdent

Обучение Структура данных следующим образом: Окно 4-х различных значений и целевой выход Пример: В момент времени t1: V1 = 100, V2 = 200, V3 = 150, В4 = 400, целевая = -1 В момент времени t2 : V1 = 102, V2 = 220, V3 = 170, V4 = 430, target = + 1 И так далее В некоторых случаях одним или несколькими значениями V1, V2, V3 или V4 являются основной функцией, которая имеет/имеют основное влияние на целевом выходе для данных онлайн-потока (инкрементный) –

Типичные методы идентификации важных функций включают PCA и ICA. Однако даже более ценным, чем эти методы, является понимание базовой системы, которую представляют ваши данные.

источник

2015-06-26 00:26:00

Трудно ответить без дополнительной информации о структуре данных. Лучший подход к классификации зависит от структуры ваших данных и целей вашего анализа. Есть некоторые классификаторы, которые могут очень хорошо справляться с перекошенными данными, я бы предположил, что вы посмотрите на некоторые из таких ансамблевых методов, как усиление и случайные или ротационные леса. Некоторые из этих методов классификации, например ротационные леса, предоставляют информацию о переменной важности в рамках учебного процесса. Если вы просто хотите решить, какие функции наиболее важны, вы можете попробовать использовать CART/random леса. Однако, если вам нужна подробная помощь, я настоятельно рекомендую вам предоставить дополнительную информацию о вашей структуре данных и о том, чего вы хотите достичь.

источник

2015-06-26 00:57:31

: структура данных следующая: –

Как определить заранее ключевые функции из большого набора данных, где большая часть данных попадает под одну категорию, используя контролируемое обучение

ответ

Смежные вопросы