У меня есть два путаницы, когда я использую алгоритм машинного обучения. Сначала я должен сказать, что я просто использую его.некоторые путаницы в обучении машинам
Есть две категории А и В, если я хочу, чтобы выбрать столько, сколько А из их смеси, какого рода алгоритм я не должен использовать (нет необходимости учитывать количество образцов). Сначала я думал, что это должен быть алгоритм классификации. И я использую, например, повышение дерева решений в пакете TMVA, но кто-то сказал мне, что BDT действительно является алгоритмом регрессии.
Я нахожу, когда у меня грубые данные. Если я проанализирую его (сделайте несколько комбинаций ...), прежде чем бросать его в BDT, результат лучше, чем я бросаю грубые данные в BDT. Поскольку грубые данные содержат всю информацию, зачем мне сам ее анализировать?
Вы не поняли, просто добавьте комментарий. И надеюсь, что вы можете дать мне совет.
для вопроса 2 можете ли вы приложить пример ваших «грубых данных» вместе с вашими «проанализированными данными»? а также параметры, которые вы использовали с вашим классификатором (например, n_classifier, max_depth и т. д.) – maxymoo
Мои данные - это некоторые частицы. Мы знаем, что частица имеет импульс, который равен px, py, pz и e, означает импульс направления x, направление y ... и энергию. Это грубые данные. Для разных категорий A и B масса A и B различна. Поэтому мы можем объединить эту массу = sqrt (e^2-px^2-py^2-pz^2). Кроме того, мы можем использовать четыре импульса (грубые данные) для объединения другой значащей переменной, такой как cos = pz/sqrt (px^2 + py^2 + pz^2). Как вы можете видеть, все «проанализированные данные» представляют собой комбинации «грубых данных», но «анализируемые данные» - лучший вход для BDT. – insomnia
Параметры: «! H:! V: NTrees = 850: MinNodeSize = 2.5%: MaxDepth = 5: BoostType = AdaBoost: AdaBoostBeta = 0.5: UseBaggedBoost: BaggedSampleFraction = 0.5: SeparationType = GiniIndex: nCuts = 20" Для BDT. – insomnia