1
Я написал функцию, которая принимает серию pandas (поплавков или целых чисел), сортирует ее, затем вычисляет для каждого члена x долю значений в серии, большей, чем x. Я использую tqdm.Как я могу ускорить эту операцию применения панд?
import pandas as pd
from tqdm import tqdm, tqdm_pandas
tqdm.pandas()
def my_func(data):
data.sort_values(inplace=True)
n = len(data)
# return data.apply(lambda x: len(data[data > x])/n) # if not using tdqm
return data.progress_apply(lambda x: len(data[data > x])/n)
Это займет несколько минут, чтобы работать на серии с ~ 300000 строк. Я могу что-то сделать, чтобы ускорить его?