У меня есть ряд чисел, которые я разбил на ведра, используя pandas.cut.Python: Как найти свойства элементов в серии
agepreg_cuts = pd.cut(df['agepreg'],[0,20,25,30,pd.np.inf], right=False)
Затем я подсчитываю и показываю счет.
agepreg_count = (df.groupby(agepreg_cuts).count())
agepreg_count
Что дает мне гораздо больше информации, чем я хочу:
sest cmintvw totalwgt_lb
agepreg
[0, 20) 3182 0 1910
[20, 25) 4246 0 2962
[25, 30) 3178 0 2336
[30, inf) 2635 0 1830
Теперь я хочу, чтобы отформатировать его, как это:
INAPPLICABLE 352
0 to 20 3182
20 to 25 4246
25 to 30 3178
30 to 50 2635
Total 13593
Который ведет меня пару вопросов.
- Как извлечь начальные/конечные свойства (например, 25/30) из бункера
[25,30)
? - Как узнать свойства в серии, так что мне не нужно спрашивать о предыдущем вопросе?
Для справки, данные я использую приходит от nsfg. В бесплатной книге thinkstats2 указан код и данные компании github.
Из каталога 'code' вы можете запустить следующую строку для загрузки данных.
import nsfg
df = nsfg.ReadFemPreg()
df
Вы в основном с просьбой о доступе к концам точки останова, или о не получении вы «гораздо больше информации, чем [вы] хотят»? – ako
Точки останова –
И я предполагаю, что вы просите больше, чем просто разницу между значениями, если вы передаете список в 'pd.cut' (в вашем списке были эти точки останова' [0,20,25,30 , pd.np.inf] ')? Наверное, я не понимаю вариант использования; ваш желаемый результат, похоже, по-прежнему содержит строку с точками останова в качестве индекса. Может быть, вы просто спрашиваете о том, как создать этот ярлык? – ako