Я хотел бы вычислить среднее числовых столбцов, используя groupby, но поддерживая все столбцы. Примером dataframe из 7 колонок здесь:groupby и вычислять среднее значение, но сохраняя все столбцы
tracking_id gene_id gene_short_name tss_id locus FPKM-1 FPKM-2 ENSMUSG00000025902 ENSMUSG00000025902 Sox17 Tss1231 1:4490927-4496413 0.611985 232 ENSMUSG00000025902 ENSMUSG00000025902 Sox17 Ts412 1:4490927-4496413 12 21 ENSMUSG00000025902 ENSMUSG00000025902 Sox17 Ts56 1:4490927-4496413 2 213 ENSMUSG00000025902 ENSMUSG00000025902 Sox17 TS512 1:4490927-4496413 0.611985 5 ENSMUSG00000025902 ENSMUSG00000025902 Sox17 TS12241 1:4490927-4496413 0.611985 51 ENSMUSG00000096126 ENSMUSG00000096126 Gm22307 TS124 1:4529016-4529123 35 1 ENSMUSG00000096126 ENSMUSG00000096126 Gm22307 TS-1824 1:4529016-4529123 1 2 ENSMUSG00000096126 ENSMUSG00000096126 Gm22307 TS1249082 1:4529016-4529123 2 5 ENSMUSG00000088000 ENSMUSG00000088000 Gm25493 TS1290328 1:4723276-4723379 0 1 ENSMUSG00000098104 ENSMUSG00000098104 Gm6085 TS-1 1:4687933-4689403 0.0743559 6 ENSMUSG00000033845 ENSMUSG00000033845 Mrpl15 TSS31014,TSS82987,TSS82990,TSS86849 1:4773205-4785739 79.1154 7 ENSMUSG00000093015 ENSMUSG00000093015 Gm22463 TSS79849 1:5644644-5644745 0 1 ENSMUSG00000025905 ENSMUSG00000025905 Oprk1 TSS15316,TSS3878,TSS6226,TSS65522 1:5588492-5606131 0 6 ENSMUSG00000033774 ENSMUSG00000033774 Npbwr1 TSS69693 1:5913706-5917398 0 8 ENSMUSG00000033793 ENSMUSG00000033793 Atp6v1h TSS4651 1:5083172-5162549 24.2386 9 ENSMUSG00000087247 ENSMUSG00000087247 Fam150a TSS42747 1:6359330-6394731 0.502804 1
Я хотел бы группе первых 3 столбцов и сохранить столбцы 4 и 5 в моем выходе (лучше всего будет первая строка каждого неоднократных столбцов 1 до 3), а затем вычислить среднее числовых столбцов в конце. Я написал это:
import pandas as pd
df = pd.read_table('grouping.txt')
grouped = df.groupby(list(df.columns[0:3]), sort=False).mean()
Выход:
tracking_id gene_id gene_short_name FPKM-1 FPKM-2 ENSMUSG00000025902 ENSMUSG00000025902 Sox17 3.167191 104.4 ENSMUSG00000096126 ENSMUSG00000096126 Gm22307 12.66666667 2.666666667 ENSMUSG00000088000 ENSMUSG00000088000 Gm25493 0 1 ENSMUSG00000098104 ENSMUSG00000098104 Gm6085 0.0743559 6 ENSMUSG00000033845 ENSMUSG00000033845 Mrpl15 79.1154 7 ENSMUSG00000093015 ENSMUSG00000093015 Gm22463 0 1 ENSMUSG00000025905 ENSMUSG00000025905 Oprk1 0 6 ENSMUSG00000033774 ENSMUSG00000033774 Npbwr1 0 8 ENSMUSG00000033793 ENSMUSG00000033793 Atp6v1h 24.2386 9 ENSMUSG00000087247 ENSMUSG00000087247 Fam150a 0.502804 1
Выше выход, но отсутствует колонки 4 (ТСС) и 5 (локус) входного файла. Как я могу сохранить эти 2 столбца (их значения различны и, следовательно, не могут быть частью столбцов groupby. Сохранение всех значений столбцов в порядке со мной, если существует один из сгруппированных элементов).
выход заканчивал тем же, за исключением ввода последних колонок были заменены средними. Не думаю, что это сработало. – BioProgram
@BioProgram - я неправильно понял ваш вопрос. Обновлен мой ответ на другой возможный подход ... – SPKoder
Ур сценарий работает. Не могли бы вы объяснить reset_index, а затем пополнение столбцов. Я не мог понять, что на самом деле выполняется в строках 3, 4 и 5. Также, как вы написали groupby() []. Mean() отличается от того, что я написал. Не уверен, как он все еще работает. Был бы признателен, если вы можете разработать бит – BioProgram