Это может помочь описать ваш сценарий еще раз. Поскольку вы пытаетесь найти редкие события, я предполагаю, что у вас рабочее определение не редко (для некоторых проблемных пространств это действительно сложно).
Например, можно сказать, что у нас есть некоторый процесс, который не является процессом случайного блуждания, таким как использование ЦП для некоторой службы. Если вы хотите обнаружить редкие события, вы можете воспользоваться средним использованием, а затем посмотреть несколько стандартных отклонений. Здесь полезны методы от Statistical Process Control.
Если у нас есть случайный процесс ходьбы, такой как цены на акции (может открыться черви ... пожалуйста, просто предположите это ради простоты). Направление движения от t до t + 1 является случайным. Случайным событием может быть определенное количество последовательных движений в одном направлении или большое движение в одном направлении за один временной шаг. См. Stochastic Calculus для основных понятий.
Если процесс на этапе t зависит только от шага t-1, мы можем использовать Markov Chains для моделирования процесса.
Это короткий список математических методов, доступных вам. Теперь о механическом обучении. Почему вы хотите использовать машинное обучение? (Всегда хорошо думать, чтобы убедиться, что вы не слишком усложняете проблему) Предположим, что вы это делаете, и это правильное решение. Фактический алгоритм, который вы используете, не очень важен на данном этапе. Что вам нужно сделать, так это определить, что такое редкое событие. И наоборот, вы можете определить, что такое нормальное событие, и искать вещи, которые не являются нормальными. Обратите внимание, что это не одно и то же. Скажем, мы создаем множество редких событий r1 ... rn. Каждое из этих редких событий будет иметь некоторые особенности, связанные с ним. Например, если компьютер вышел из строя, могут быть такие функции, как в последний раз, когда он был замечен в сети, его статус порта коммутатора и т. Д. Это на самом деле самая важная часть машинного обучения, создание набора тренировок. Обычно это состоит из ручной маркировки набора примеров для обучения модели. После того, как вы лучше поймете пространство с возможностями, вы сможете подготовить другую модель для маркировки. Повторяйте этот процесс, пока не будете удовлетворены.
Теперь, если вы в состоянии определить свое редкое событие, это может быть дешевле просто генерировать эвристику. Для обнаружения редких событий я всегда находил, что это работает лучше.
Это зависит от того, что вы имеете в виду, когда говорите «редкое событие» ... как редкость события определяется количественно в области вашей проблемы? – Kiril
Посмотрите на процесс с обозначенной точкой, с помощью которого можно справиться с информационными приращениями. – Tristan
Один раз в несколько дней, но данные - это минутные данные. Таким образом, его несколько 120 минут в (2-10) * 1440 минут – AlgoMan