У меня есть много файлов данных (файлы csv), расположенных в разных папках моих документов на моем компьютере. Все файлы csv имеют одинаковое количество столбцов, где имя каждого столбца одинаковое и в том же порядке, однако между файлами существует различное количество строк данных. Все файлы имеют «Datetime» в качестве своего первого столбца, где «YYYYMMDD HH: MM: SS» записывается по строкам данных.Для перебора нескольких папок для повторной выборки времени в нескольких файлах CSV и экспорта с автоматически созданным именем файла
Я хочу переделать все данные, чтобы создавать почасовые, ежедневные и ежемесячные данные из исходных файлов. Некоторые столбцы в файлах csv требуют суммирования данных за час, день и месяц, тогда как в других столбцах требуется усреднение данных по этим временным рамкам (согласованным во всех файлах csv). Я хочу, чтобы каждый оригинальный CSV-файл имел почасовую, ежедневную и месячную версию.
Все CSV файлы существуют в следующем inputpath, но на самом деле находится в других файлах в этом inputpath:
inputpath = 'C:/Users/cp_vm/Документы/данные/Input/Clean /'
Например, в папке «Очистить» есть еще две папки, и внутри этих папок есть другие, которые содержат все файлы csv. Я хочу читать во всех файлах csv, которые существуют за папкой «Чистота», без необходимости писать несколько «входных путей» и перевыполнять файлы, как упоминалось ранее.
Затем я хочу экспортировать эти передискретизированные фреймы данных в папки, из которых они пришли, и добавить к их именам «час», «день» или «месяц».
Ниже приведен пример фрагмента файлов csv.
Например, я хочу, чтобы дискретизацию данные минутный интервал в 15 ежечасно, суточные и месячные данные. Первые два столбца должны быть суммированы при повторной выборке, тогда как третий столбец должен быть усреднен по времени повторной выборки. Я понимаю, что df.resample ('h'). Sum() будет суммировать данные за час, а * .mean() будет усреднять данные за час, но сложно, когда разные столбцы требуют различной повторной выборки, а затем хотят объедините все эти столбцы вместе, а затем экспортируйте почасовой, ежедневный или ежемесячный файл в соответствующее место, где имя файла автоматически было изменено, чтобы показать, что оно выполняется ежечасно, ежедневно или ежемесячно.
Я понимаю, что это довольно описательно, но это вызывает у меня всевозможные задержки и перемещение файлов csv повлияет на другой скрипт python, который я уже написал. Любые предложения будут ценны. Заранее благодарю вас за любую помощь, которую вы можете предоставить.
Спасибо @ SebastianOpalczyński - Когда я печатаю (csv_files), я получаю список своих 88 CSV-файлов, что здорово. Но я хочу, чтобы иметь возможность перепрограммировать все 88 файлов для каждого из них почасовым, ежедневным и ежемесячным версиям, поскольку каждый из них имеет «Datetime» в качестве своего первого столбца. Некоторые столбцы необходимо суммировать, в то время как другие должны быть усреднены по временным рамкам повторной выборки. – user3299288