У меня есть кадр данных с столбцом заработной платы, который определяет почасовую зарплату и столбец объединения, который указывает, является ли сотрудник в союзе. Существуют и другие переменные, но сейчас они не имеют значения. Я пытаюсь найти среднюю заработную плату для сотрудников в профсоюзе. Я написал код, который предоставляет список True/False, является ли сотрудник членом профсоюза. Однако я не знаю, как применять этот список, чтобы получить среднюю заработную плату. Заранее благодарю за любую помощь.Python Pandas DataFrame Control Flow
#Read cps.csv file
import pandas as pd
cps_df = pd.read_csv('cps.csv')
cps_df
#Function to determine whether or not an employee is in a union
def hourly_wage(x):
""" return true if union else false """
if x['union'] == 'Union':
return True
else:
return False
#Function to create a list of union vs non-union
def union_list(y):
""" return a list determining union vs non-union """
return [hourly_wage(x) for index, x in y.iterrows()]
#Print list
%time
print(union_list(cps_df))
Возможно, мне что-то не хватает, но почему бы не 'cps_df [cps_df ['' union '] ==' Union '] [' wage ']. Mean()'? – iayork
Я должен создать кадр данных pandas и вычислить среднюю почасовую заработную плату профсоюзного работника, используя поток управления для итерации по каждой строке кадра данных. Поэтому я предполагаю, что мне нужно настроить это так. Я ошибаюсь? –