Я хочу лениво создать dataframe DASK от генератора, который выглядит примерно так:Лениво создать DASK dataframe от генератора
[parser.read(local_file_name) for local_file_name in repo.download_files())]
Где и parser.read и repo.download_files возврата генераторов (с использованием выхода). parser.read дает словарь пар ключ-значение, которые (если я просто используя простые панд) будет собирать каждый словарь, чтобы список, а затем использовать:
df = pd.DataFrame(parsed_rows)
Какой самый лучший способ создать DASK dataframe от этого? Причина в том, что: а) я не знаю, обязательно количество возвращаемых результатов, и б) я не знаю распределения памяти на машине, на которой он будет развернут.
Кроме того, что я должен делать по-другому (например, может быть, создать кучу dataframes, а затем положить в те к DASK вместо?)
Спасибо.