У меня есть файлы csv, которые я должен сделать dataframes с panda
. обычно файлы в формате, как это:Pandas: Получить данные из файла csv независимо от положения заголовка
Days Page Impressions Visits Bounces
2012-12-15 692041 87973 31500
2012-12-16 602356 78663 29298
2012-12-17 730902 99356 37436
2012-12-18 730071 97844 37199
2012-12-19 774964 110446 43858
2012-12-20 419256 44592 13961
2012-12-21 320966 33692 10076
2012-12-22 200992 18840 5170
Проблема я столкнулся в том, что иногда CSV файлы приходят, как это:
SomeName ABCD
Account: AccountHolder Name
Report Author: Analysis
Description: Some variable length description
Pivot
Pivot
Days Page Impressions Visits Bounces
2012-12-15 367143 69147 30222
2012-12-16 334675 63702 28040
2012-12-17 409260 77171 33642
2012-12-18 427765 78221 33575
2012-12-19 434781 79850 34300
2012-12-20 463448 81361 34501
2012-12-21 447964 81897 35242
2012-12-22 368477 70352 31014
2012-12-23 321891 61973 27521
Time of Calculation: 2013-03-15 02:14:58
Как я могу получить только данные, связанные с столбцы дней, Показы страниц, просмотры, Отказы
Я знаю, что я могу сделать list(my_dataframe.columns.values)
, чтобы получить имена заголовков, но он не работает на типа 2 CSV файла.
Есть ли у них какой-либо существующий Pythonic способ сделать это в пандах или что-то еще?
Thanks
Возможно, проще всего написать отдельный скрипт для очистки данных, пропуская строки без допустимых значений. – monkut
дигностическим способом было бы попытаться прочитать csv, и если есть ошибки, продолжайте увеличивать параметр 'skiprows' до тех пор, пока он не будет работать, к сожалению, это не будет безупречным, и в этом случае вам придется анализировать результат или сначала анализировать заголовки перед определением количества строк, которые нужно пропустить – EdChum