Методы вокруг dask.DataFrame все, похоже, убедитесь, что сортировка столбца индекса. Тем не менее, с помощью from_delayed
, можно построить DASK dataframe, который имеет индекс столбца, который не отсортирован:Может ли dask dataframe с неупорядоченным индексом вызывать бесшумные ошибки?
pdf1 = delayed(pd.DataFrame(dict(A=[1,2,3], B = [1,1,1])).set_index('A'))
pdf2 = delayed(pd.DataFrame(dict(A=[1,2,3], B = [1,1,1])).set_index('A'))
ddf = dd.from_delayed([pdf1,pdf2]) #dask.DataFrame with unordered index
Комбинация [индекс устанавливается, индекс не отсортирован, деление неизвестно] является то, что я никогда не видел среди dataframes, созданных самим dask. Так что я задавал следующие вопросы:
- Является ли dask проверенным, чтобы хорошо работать с такими кадрами данных?
- Могут ли даже быть, что вычисления на таких кадрах данных дают неправильные результаты молча, например. потому что они предполагают, что индекс должен быть отсортирован или выполнен на неполном подмножестве данных?
- Или более общий: если индексный столбец не отсортирован, он только замедляет доступ по индексу или нарушает функциональность?