При работе с зашифрованным трафиком иногда может использоваться reveal a surprising amount of information при использовании сведений о домене. Стоит пересмотреть прошлые исследования, чтобы понять методологии. Для SSH, в частности, я рекомендую прочитать газету Dawn Song на inferring login passwords from SSH sessions.
Другой пример: Bro использует эвристический диск, удаленный от неудачных логинов, исходя из количества байтов, переданных в начале соединения.
В целом, я рекомендую записывать следы активности, которую вы хотите профилировать/классифицировать позже. Таким образом, у вас есть основополагающая истина и вы можете узнать, где SSH ведет себя иначе, чем вы ожидаете.
Для определения времени простоя интерактивных сессий, вы должны понимать, шум, если таковые имеются, что SSH впрыскивает в периоды отсутствия активности. Затем вы можете создать временной ряд количества переданных байтов и поэкспериментировать с временным разрешением, чтобы увидеть, какие модели гранулярности лучше всего отслеживают. Кроме того, вы можете разложить временные ряды на два компонента, один из которых является протоколом SSH и одним пользовательским действием.
Это звучит как классический неподконтрольный вопрос обучения: clustering, например. k-средства или смеси. Придумывание нужного набора функций, вероятно, потребует некоторых исследований. Например, определение интерактивного сеанса из туннеля может быть затруднено, если туннельное соединение также является интерактивным. В вашей модели вы можете учитывать дельта размера или даже включать больше контекста, например, в stepping stone detection.