У меня есть панда DataFrame, который я хотел бы сгруппировать по подстрокам одного из столбцов. Подстроки приведены в другой серии панд (или в списке). Я пробовал несколько вещей, но я просто не могу заставить его работать.pandas groupby из DataFrame с использованием серии подстрок
у меня есть это:
tst = pd.DataFrame({'id': [0, 11, 222, 3333, 44444],
'bla': ['ab', 'ba', 'ca', 'bc', 'db']})
test = pd.Series(['a', 'b', 'c', 'd'])
Я хотел бы группа tst
в зависимости от того 'а', 'б', 'с', 'd' (от test
) содержится в tst['bla']
.
более элегантно, чем функции применяются, чтобы использовать 'результат [xstring] = tst.bla.str.contains (xstring)' – Pilik
Спасибо за решения. Сначала я был немного обеспокоен тем, что мои реальные данные (20M csv-файлов) займут много времени, чтобы работать с циклом for, но это было очень быстро. Первоначально я надеялся на какую-то однострочную магию панд, но это хорошее и простое решение. Благодаря! – tinux