Я довольно новичок в Linux и считаю, что это должна быть довольно простая задача, но я не могу это понять. У меня есть большой файл данных с миллионами строк, и я хочу разбить файл на более мелкие файлы на основе даты. У меня есть столбец времени, который содержит данные YYMMDDHH, и я хочу создать субфайлы на основе DD. Для каждого нового DD я хочу создать новый файл со всеми записями за этот день. Файл является csv и уже отсортирован по времени.Подмножество CSV по уникальным значениям столбца
Из того, что я прочитал, похоже, что я должен использовать cat, awk и, возможно, grep для выполнения того, что я хочу.
Чтобы уточнить, имеется 14 столбцов в строке. Один столбец содержит данные, содержащие YYMMDDHH (т.е. 14071000, 14071000 ... 14071022,14071022 .... 14071100 ... 14071200 ...)
я могу вручную подмножеством с
cat trial | awk 'NR>=1 && NR<=100 {print}' >output.txt
Это дает мне строки от 1 до 100. Мне было интересно, есть ли команда, которая позволяет мне извлекать из колонки YYMMDDHH, так что все точки данных на 140710 могут быть помещены в один файл. Надежда, которая помогает объяснить мою проблему немного лучше.
Для того, чтобы мы могли помочь вам более легко, вы должны добавить образец вашего входного файла на вопрос. Кроме того, было бы хорошо видеть, что вы пробовали до сих пор. –