Я хочу получить верхние N наиболее распространенных значений поля в CSV-файле с их суммой в другом поле. Как я могу это сделать с awk?Список наиболее распространенных значений с их соответствующей суммой
Пусть мой файл является:
v1,45
v3,20
v2,500
v3,100
v2,200
v1,55
v3,50
v1,10
и мне нужно N = 2 не более 1 значения происходящих полей с их суммой соответствующих поле2 ценности в этом случае вывод будет:
v1,110
v3,170
Не могли бы вы толковать это более подробно? – user3144923
@ user3144923 первый awk, будет делать сумму на одном и том же 'vx' и генерировать вывод, подобный' 3 v1,110', 3 - это число встречаемости, вторая часть (разделенная пробелом) - это то, что мы хотим, передаем это ' sort -nr' decending сортировать по числу. результат снова возвращается к awk, мы берем только первые две записи и удаляем первый столбец, который был '3'. – Kent
Как вы можете масштабировать значения второго поля на выходе? например, мне нужно умножить все значения столбцов на значение, вычисленное в bash и вне awk, например $ scale – user3144923