Для определенного набора данных Kaggle (правила запрещают мне разделять данные здесь, но легко доступны here),панды: pandas.DataFrame.describe возвращает информацию только один столбец
import pandas
df_train = pandas.read_csv(
"01 - Data/act_train.csv.zip"
)
df_train.describe()
я получаю:
>>> df_train.describe()
outcome
count 2.197291e+06
mean 4.439544e-01
std 4.968491e-01
min 0.000000e+00
25% 0.000000e+00
50% 0.000000e+00
75% 1.000000e+00
max 1.000000e+00
в то время как для того же набора данных df_train.columns
дает мне:
>>> df_train.columns
Index(['people_id', 'activity_id', 'date', 'activity_category', 'char_1',
'char_2', 'char_3', 'char_4', 'char_5', 'char_6', 'char_7', 'char_8',
'char_9', 'char_10', 'outcome'],
dtype='object')
и df_train.dtypes
дает мне:
>>> df_train.dtypes
people_id object
activity_id object
date object
activity_category object
char_1 object
char_2 object
char_3 object
char_4 object
char_5 object
char_6 object
char_7 object
char_8 object
char_9 object
char_10 object
outcome int64
dtype: object
мне не хватает какой-то причине, почему панды только describe
сек один столбец в наборе данных?
Но 'включают all'' = 'по умолчанию, если все столбцы в наборе данных являются объектами (строки)? – tchakravarty
Затем вопрос меняется на - столбцы 'object', интерпретируемые как категориальные столбцы pandas в последнем случае? – tchakravarty
@tchakravarty См. Мое редактирование. –