2013-03-02 6 views
0

Недавно я читал некоторые статьи о классификации интернет-трафика, в частности, используя алгоритмы машинного обучения.Классификация интернет-трафика

Я планирую изучить его, и я хотел бы предложить идею проекта по классификации интернет-трафика для моего класса машинного обучения в этом семестре.

Мой первый шаг - собрать данные в моей локальной сети, состоящей из 3-4 клиентов. Я использую инструмент wirehark для обнюхивания пакетов.

Следующим шагом является извлечение потоков TCP из пакетов wirehark. На этом этапе я пытаюсь использовать tcpflow для Linux. tcpflow создает разные файлы для каждого потока. Здесь содержимое файлов в основном двоично, и я не могу понять, как я могу извлечь дискриминаторы из этих файлов.

Может кто-нибудь дать мне идею или поделиться своим опытом о том, как я могу интерпретировать файлы tcpflow? Я буду более чем счастлив услышать вашу рекомендацию.

Заранее спасибо.

ответ

2

Вот некоторые идеи для функций, которые можно извлечь из TCP-трафика:

  • Порт/Протокол (Большинство протоколов обычно используют один и тот же порт на сервере)
  • частота и размер (короткие пакеты команд пакетов или длинные потоки данных)
  • фазы соединения TCP
  • потока ошибок/повторных передач
  • управляющие сообщения
  • потока и ограничение скорости

Для лучшего извлечения функций вам, вероятно, придется посмотреть на детали некоторых протоколов (HTTP, DNS и т. Д.), А не только на потоки TCP. Я думаю, что wirehark уже делает это, так почему бы не использовать их библиотечные функции?

Вы также можете посмотреть дизайн intrusion detection systems (IDS), поскольку они в значительной степени делают то же самое с трафиком и пытаются классифицировать его как доброкачественные или злонамеренные.

Смежные вопросы