У меня есть данные, которые будут состоять из нескольких атрибутов, которые могут быть описаны массивами произвольной длины (например, объект может содержать некоторое количество кластеров, и я хочу сохранить размеры каждой составляющей кластер как столбец, но количество кластеров на один объект может варьироваться от 0 до \ infty, в принципе). Есть ли способ поддерживать массивы любой длины в виде данных столбцов в кадре данных Pandas? Я понимаю, что могу использовать панель, но AFAIK нужно было бы знать глубину панели (что в принципе я не могу знать, пока не загружу данные), и, кроме того, панель может быть очень разреженной, поскольку в примере , у многих объектов может быть только очень мало кластеров.Многомерные массивы в столбцах Pandas
Если я просто использую массив numpy с dtype = object, будут ли какие-либо последствия для хранения в H5Store или в исполнении Pandas или что-нибудь еще?
Не могли бы вы добавить столбец с именем «cluster_id» и сохранить его все в простой фреймворке? – user1827356
А, вы имеете в виду, что столбец может содержать dataframes? Имеет ли это последствия для производительности? Я где-то читал, что использование numpy.array в качестве данных столбца не позволит определенных оптимизаций Pandas, но если это не так для dataframes как данные столбца, то отлично! –
Если у вас есть фрейм данных для каждого кластера с колонками ['A', 'B', 'C'], объедините их в новую фреймворк данных с столбцами ['ID', 'A', 'B', 'C'], где ID - уникальный идентификатор для каждого кластера. Таким образом, у вас будет «один» огромный фреймворк (без столбцов, содержащих данные), где каждый кластер будет иметь более одной строки. Я могу опубликовать более подробное объяснение в качестве ответа при необходимости – user1827356