2016-11-27 2 views
-1

У меня есть данные IP-адреса. Я хочу применить к нему кластеризацию k. как его применять. можно отобразить данные в 4 мерном пространстве т.е. данных имеетk означает группировку данных IP-адреса в matlab

10.0.11.4 
10.0.7.4 
10.0.8.4 
10.0.14.4 

затем можно отобразить данные в виде 4 измерения, т.е.

10 0 11 4 
10 0 7 4 
10 0 8 4 
10 0 14 4 

ответ

0

Это зависит от того, почему вы хотите, чтобы сделать это.

Например, если вы хотите сделать это, чтобы проверить, какой IP-адрес находится в подсети или географически ближе, тогда K-означает, что он явно не работает. Поскольку следующие значения (для exmple), как на к-означает

10.0.4.1 9.0.4.1

близки друг к другу, но в действительности, они могут географически слишком далеко. Итак, как я уже сказал, все зависит от того, почему вы хотите запускать K-средства по IP-адресам?

+0

Фактически я делаю обнаружение аномалий, и для этого у меня есть данные с ip-адресом, размером потока и другими функциями. поэтому я хочу применить k среднюю кластеризацию на IP-адресе и хочу охарактеризовать поток с выходом k средней кластеризации, размером потока и другими функциями, а затем хочу использовать этот характеризованный поток для ввода для алгоритма обнаружения аномалий. –

+0

В этом случае вы не должны использовать IP-адрес для кластеризации. Храните его в своем алгоритме k-средних, используйте только числовые значения. Использовать ip-адрес как категориальный атрибут. –

+0

моему профессору не разрешено не использовать ip-адрес. После кластеризации я делаю одно значение этого IP-адреса, например. 256, а затем используя это значение, поэтому для каждого i.p. обратится одно значение. поэтому я хочу, как сгруппировать эти данные. я могу отобразить в 4-х размерном пространстве, то есть 1-го числа. ip на оси X, затем 2-й номер. ip на оси Y, 3-й номер. на оси Z и 4 np. ip на оси K, так что они отображают все ip-адреса на плоскости XYZK. –

1

Звучит как страшная идея сделать это. Это приведет к созданию совершенно бессмысленных кластеров (закрытые IP-адреса часто не связаны и размещаются на нескольких сайтах. Таким образом, у одного и того же IP-адреса может быть юридический автомобильный магазин и незаконный материал).

Знаете ли вы, что каждый IP-адрес один номер?

Четыре цифры с точками немного проще в использовании для ручного управления сетью. Но то, что вы видите, просто четырехбайтное целое число. IP 127.0.0.1, записанный в шестнадцатеричном виде, равен 0x7F000001 и в виде десятичного числа 2130706433.

Я еще не проверил это, но я уверен, что все браузеры все равно должны поддерживать десятичное понятие IP. Если у вас есть веб-сервер на вашем localhost, попробуйте получить его через http:// 2130706433/ или попробуйте ping 2130706433 в командной строке.

K-средство в четырехбайтовом пространстве данных имеет смысл только в том случае, если был определен какой-то шаблон для назначения IP-адресов. То есть вы бы нуждались в, чтобы иметь 10. .123.45 и 10. .123.45 всегда имели бы столько общего, как если бы они были последующими IP-адресами в последнем байте.

+0

Это уже реализовано в бумаге ieee, т. е. «Wang, Jing, et al.» Обнаружение аномалий сети: обзор и сравнительный анализ стохастических и детерминированных методов ». и Контроля (CDC), 2013 IEEE 52-я ежегодная конференция по IEEE, 2013 ». Я имею в виду этот документ. файл данных IP-адреса в .mat https: //www.dropbox.com/s/3wptzvbkp77ehkp/nv1d.mat? dl = 0 и в тексте https://www.dropbox.com/s/vjuiiv9j9f3bixc/nv1d.txt?dl=0 –

Смежные вопросы