2010-06-10 3 views
4

Есть ли хорошая ссылка на алгоритмы, которые люди используют для обнаружения редких событий? Также, как учитывается фактор времени? Если у меня есть случай, когда последовательные точки данных говорят что-то (от t_1 до t_n), как это можно сделать в обычном сценарии машинного обучения?Редкое обнаружение событий

Любой указатель будет оценен по достоинству.

+1

Это зависит от того, что вы имеете в виду, когда говорите «редкое событие» ... как редкость события определяется количественно в области вашей проблемы? – Kiril

+0

Посмотрите на процесс с обозначенной точкой, с помощью которого можно справиться с информационными приращениями. – Tristan

+0

Один раз в несколько дней, но данные - это минутные данные. Таким образом, его несколько 120 минут в (2-10) * 1440 минут – AlgoMan

ответ

5

Это может помочь описать ваш сценарий еще раз. Поскольку вы пытаетесь найти редкие события, я предполагаю, что у вас рабочее определение не редко (для некоторых проблемных пространств это действительно сложно).

Например, можно сказать, что у нас есть некоторый процесс, который не является процессом случайного блуждания, таким как использование ЦП для некоторой службы. Если вы хотите обнаружить редкие события, вы можете воспользоваться средним использованием, а затем посмотреть несколько стандартных отклонений. Здесь полезны методы от Statistical Process Control.

Если у нас есть случайный процесс ходьбы, такой как цены на акции (может открыться черви ... пожалуйста, просто предположите это ради простоты). Направление движения от t до t + 1 является случайным. Случайным событием может быть определенное количество последовательных движений в одном направлении или большое движение в одном направлении за один временной шаг. См. Stochastic Calculus для основных понятий.

Если процесс на этапе t зависит только от шага t-1, мы можем использовать Markov Chains для моделирования процесса.

Это короткий список математических методов, доступных вам. Теперь о механическом обучении. Почему вы хотите использовать машинное обучение? (Всегда хорошо думать, чтобы убедиться, что вы не слишком усложняете проблему) Предположим, что вы это делаете, и это правильное решение. Фактический алгоритм, который вы используете, не очень важен на данном этапе. Что вам нужно сделать, так это определить, что такое редкое событие. И наоборот, вы можете определить, что такое нормальное событие, и искать вещи, которые не являются нормальными. Обратите внимание, что это не одно и то же. Скажем, мы создаем множество редких событий r1 ... rn. Каждое из этих редких событий будет иметь некоторые особенности, связанные с ним. Например, если компьютер вышел из строя, могут быть такие функции, как в последний раз, когда он был замечен в сети, его статус порта коммутатора и т. Д. Это на самом деле самая важная часть машинного обучения, создание набора тренировок. Обычно это состоит из ручной маркировки набора примеров для обучения модели. После того, как вы лучше поймете пространство с возможностями, вы сможете подготовить другую модель для маркировки. Повторяйте этот процесс, пока не будете удовлетворены.

Теперь, если вы в состоянии определить свое редкое событие, это может быть дешевле просто генерировать эвристику. Для обнаружения редких событий я всегда находил, что это работает лучше.

+0

Согласовано :). проблема, которую я пытаюсь выяснить, есть ли какой-либо сигнал, который я могу уловить до появления этих событий. Поэтому фактор времени играет здесь роль. Поскольку существовали основанные на правилах подходы, которые были определены ранее. Но это не учит, когда происходят изменения в программном обеспечении/HW, которые он исследует. – AlgoMan

+0

Единственное, что нужно сделать, это постоянно переучивать модель. Машинное обучение работает, глядя на прошлое, поэтому предполагает, что будущее будет напоминать прошлое. Таким образом, вы можете сделать что-то, чтобы определить, является ли процесс ненормальным. Однако вы, вероятно, не сможете классифицировать его в определенной категории, так как вы его раньше не видели. Рассматривайте высокочастотную торговлю. У них есть модели, которые построены для работы в большинстве рыночных условий.Когда рыночные условия не являются нормальными, они закрываются, так как они не уверены в том, что модель будет работать. –

Смежные вопросы