Как я могу выбрать рамку данных pandas или graphlab sframe на основе заданных значений распределения ярлыков класса \, например: Я хочу, чтобы образец кадра данных имел столбец label \ class, чтобы выбрать строки, такие как каждый ярлык класса одинаково выбирается, тем самым имея аналогичную частоту для каждого ярлыка класса, соответствующего равномерному распределению меток классов. Или лучше всего получить образцы в соответствии с распределением классов, которое мы хотим.Сэмплирование данных на основе заданного распределения
+------+-------+-------+ | col1 | clol2 | class | +------+-------+-------+ | 4 | 45 | A | +------+-------+-------+ | 5 | 66 | B | +------+-------+-------+ | 5 | 6 | C | +------+-------+-------+ | 4 | 6 | C | +------+-------+-------+ | 321 | 1 | A | +------+-------+-------+ | 32 | 432 | B | +------+-------+-------+ | 5 | 3 | B | +------+-------+-------+ given a huge dataframe like above and the required frequency distribution like below: +-------+--------------+ | class | nostoextract | +-------+--------------+ | A | 2 | +-------+--------------+ | B | 2 | +-------+--------------+ | C | 2 | +-------+--------------+
выше следует извлекать строки из первого dataframe на основе заданного распределения частот во втором кадре, где значение подсчета частот приведены в nostoextract столбца, чтобы дать сэмпл кадр, где каждый класс появляется при макс 2 раза. следует игнорировать и продолжать, если не найти достаточные классы для соответствия требуемому счету. Результирующий фрейм данных должен использоваться для классификатора на основе дерева решений.
Как отмечает комментатор, выборка данных должна содержать nostoextract разных экземпляров соответствующего класса? Если не хватает примеров для данного класса, в этом случае вы просто берете все доступные.
Не могли бы вы привести примеры того, чего вы хотите достичь? И вы посмотрели на 'pandas.DataFrame.sample'? (Http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.sample.html) –
@ chris-sc да, это не позволяет пробовать на основе столбца класса – stackit
В основном я хочу пробовать перекошенный фрейм данных, чтобы все метки классов были достаточно представлены как можно больше. Ярлыки классов находятся в столбце «label». Это подается в классификатор. @ chris-sc – stackit