Данные в Excel листов сохраняется следующим образом:Панды: синтаксический объединить столбцы заголовков из Excel
Area | Product1 | Product2 | Product3
| sales|sales.Value| sales |sales.Value | sales |sales.Value
Location1 | 20 | 20000 | 25 | 10000 | 200 | 100
Location2 | 30 | 30000 | 3 | 12300 | 213 | 10
название продукта является слияние 2-х ячеек двух строк «нет продаж» и «значение продаж» для каждой из 1000 или около того областей за данный месяц. Аналогичным образом для каждого месяца существуют отдельные файлы за последние 5 лет. Кроме того, новые продукты были добавлены и удалены в разные месяцы. Так другой месяц файл может выглядеть следующим образом:
Area | Product1 | Product4 | Product3
Может форум предложить лучший способ читать эти данные с помощью панд? я не могу использовать индекс, так как столбцы продукта отличаются каждый месяц
В идеале я хотел бы преобразовать первоначальный формат выше:
Area | Product1.sales|Product1.sales.Value| Product2.sales |Product2.sales.Value |
Location1 | 20 | 20000 | 25 | 10000 |
Location2 | 30 | 30000 | 3 | 12300 |
import pandas as pd
xl_file = read_excel("file path", skiprow=2, sheetname=0)
/* since the first two rows are always blank */
0 1 2 3 4
0 NaN NaN NaN Auto loan NaN
1 Branch Code Branch Name Region No of accounts Portfolio Outstanding
2 3000 Name1 Central 0 0
3 3001 Name2 Central 0 0
Я хочу, чтобы преобразовать его до Auto loan.No of account
, Auto loan.Portfolio Outstanding
в качестве заголовков.
Можете ли вы опубликовать пример того, как выглядит DataFrame при загрузке файла с помощью 'df = pd.read_excel (...)'? Что такое 'df.index' и' df.columns'? – unutbu
thx, я понял это. В файлах 5x12 = 60 всего 4 комбинации мета-столбцов. Поэтому я просто использую словарь для всех 4 комбинаций. –
@unutbu: мой EDIT ясно выражает мое требование? ваша помощь приветствуется, поскольку мое решение не изящно. –