У меня есть большой файл журнала с идентификаторами пользователей и IP-адресами. Я пытаюсь определить лучший способ просмотра количества идентификаторов пользователей, к которым подключен определенный IP-адрес.Количество на основе нескольких столбцов
Первоначально я думал, что смогу сделать это через cut, sort и uniq в командной строке, но я не получаю вывод, который я желаю. Решение Python или bash было бы идеальным.
Ниже приведен пример файла:
eric 1.1.1.1
eric 1.1.1.1
brian 1.1.1.1
jeff 1.1.1.1
eric 2.2.2.2
bob 3.3.3.3
jeff 3.3.3.3
eric 1.1.1.1
eric 1.1.1.1
eric 4.4.4.4
peter 4.4.4.4
я хотел выход, чтобы показать этот тип информации:
eric - 1.1.1.1, 2.2.2.2, 4.4.4.4
brian - 1.1.1.1
jeff - 1.1.1.1, 3.3.3.3
bob - 3.3.3.3
peter - 4.4.4.4
Как:
1.1.1.1 - eric, brian, jeff
2.2.2.2 - eric
3.3.3.3 - bob, jeff
4.4.4.4 - peter
Поскольку он созревает, мне придется создать переменную для исключающих IP-адресов, где мы можем сказать, что 1.1.1.1 является NAT и доверяет, поэтому мы можем игнорировать i t, поскольку от него будет поступать множество пользователей.
Цените толчок в правильном направлении.
Хм, я бы попытаться загрузить файл в 'pandas.DataFrame', то' grouby() 'колонки имя, и, наконец, получить уникальные значения каждой группы. – Jakub
Вы хотите полный сценарий только некоторых рекомендаций? – timotree
Должен ли вход быть как есть, или вы можете использовать кортежи или список или что-то еще? – OldBunny2800