Я ищу для использования функции pandas get_dummy() для кодирования (довольно обширного) набора категориальных переменных. Однако данные в настоящее время находятся в формате вложенных таблиц. Это означает, что каждая строка представляет собой еще одну переменную экземпляра, напримерPandas Get_dummies для вложенных таблиц
Instance, Cat_Col
1, John
1, Smith
2, Jane
3, Joe
Теперь я могу создать полный список уникальных переменных, которые можно использовать для get_dummies, которые представляют все возможные значения. Однако преобразование вложенной таблицы в одну строку экземпляра в этом новом формате дает мне некоторые проблемы.
Любая помощь очень ценится Спасибо
Edit: каждый экземпляр должен иметь манекен кодирования результат для всех значений Cat_col
Идея будет результат будет один вектор признаков, как так
Instance,Col_John,Col_Smith,Col_Jane,Col_Joe
1,1,1,0,0
2,0,0,1,0
3,0,0,0,1
Я считаю, что это правильное кодирование, при условии, что мы делаем 1-горячее кодирование
Вам нужен манекен для каждого уникального «Instance» или «Cat_Col» или некоторой комбинации обоих? Как выглядел бы фиктивный результат для вашего примера? – Stefan
@StefanJansen вопрос был обновлен – user1874538