0

Предположим, у меня есть набор для обучения, сделанный образцами (x, y).Когда использовать генеративные алгоритмы в машинном обучении?

Чтобы применить генеративный алгоритм, скажем, Gaussian дискриминационный, я должен предположить, что

p(x|y) ~ Normal(mu, sigma) для каждого возможного сигмы

или мне просто нужно знать, если я x ~ Normal(mu, sigma) дал у?

Как я могу оценить, достаточно ли для p (x | y) многомерного нормального распределения (до порога) использовать генеративный алгоритм?

ответ

5

Это очень много вопросов.

Чтобы применить генеративный алгоритм, скажем, Gaussian дискриминационный, я должен предположить, что

р (х | у) ~ Normal (мю, сигма) для каждого возможного сигмы

Нет, вы должны предположить, что это верно для пары mu, sigma. На практике вы не будете знать, что такое mu и sigma, поэтому вам нужно либо оценить это (частотность, Max Likelihood/Max A Posteriori), либо даже лучше включить неопределенность в отношении ваших оценок параметров в прогнозы (байесовская методология).

Как я могу оценить, следует ли p (x | y) многомерное нормальное распределение?

Классически, используя проверку пригодности. Если размерность x больше, чем горстка, это не сработает, потому что стандартные тесты включают количество элементов в бункерах, а количество бункеров, которые вам нужны в больших размерах, астрономические, поэтому у вас очень низкие ожидаемые подсчеты.

Лучше сказать следующее: каковы мои варианты моделирования (условного) распределения x? Вы можете сравнить эти параметры с помощью методов сравнения моделей. Ознакомьтесь с проверкой модели и ее сравнением.

Наконец, ваш последний пункт:

достаточно хорошо (до порога) мне использовать генеративный алгоритм?

Парадокс многих генеративных методов, в том числе линейного дискриминантного анализа Фишера, например, а также наивного байесовского классификатора, является то, что классификатор может работать очень хорошо несмотря на то, что модель бедна для данных. Нет особо веских причин, почему это должно быть так, но многие считают, что это эмпирически верно. Будь то это работает, можно проверить гораздо легче, чем то, что предполагаемое распределение объясняет данные очень хорошо: просто разделите свои данные на обучение и тестирование и узнайте!

+0

Это действительно отличный ответ | Мне еще нужно выяснить, как оценить распределение для p (x | y) - с Шапиро-Вилком или что-то в этом роде. Но вы дали мне отличное объяснение и приятные намеки! Tnx выделить! –

Смежные вопросы