2016-03-11 3 views
-2

, если вы записываете весь IP-трафик (используя wirehark или аналогичную программу) во время просмотра Интернета, вы найдете много пакетов, отправленных не как часть вашей активности просмотра.классификация активности просмотра пользователей с использованием машинного обучения

мой вопрос:

, если вы хотите, чтобы классифицировать пакеты (отправленные с вашего компьютера) на две группы:

1) пакеты, отправленные как часть вашего интернет-активности

2) все другие пакеты

как вы могли бы использовать машинное обучение для решения этой проблемы?

вы можете предположить, что пакетная нагрузка не может использоваться для этой цели, поскольку она либо инкапсулирована, либо зашифрована, поэтому могут использоваться только заголовки пакетов, например. Размер окна TCP, бит флага TCP, длина пакета и направления пакетов.

ответ

1

Звучит как проблема двоичной классификации.

Есть три основных подхода, которые Вы могли бы использовать:

  • собирать пакеты, которые вы можете вручную ярлык «просматривающие деятельности» и «других» и обучать двоичную классификатор сверху (например, SVM и т.д.)
  • Collect просто пакеты, которые представляют собой «активность просмотра» и готовят одноклассный классификатор сверху (например, один класс SVM)
  • Просто соберите все данные, которые вы можете, и попытайтесь сгруппировать их в два кластера, есть (очень маленький, к сожалению!) вероятность того, что найденное подразделение будет тем, которое вы ищете

В каждом из вышеуказанных случаев вам необходимо подготовить набор функций для представления ваших данных. Таким образом, либо постоянный набор некоторых функций, либо вы можете просто использовать заголовок пакета в качестве исходного текста и отслеживать некоторую текстовую модель, например, некоторую сверточную нейронную сеть и т. Д.

Смежные вопросы