У меня есть набор данных с большим объемом для очистки (300 столбцов, 30000 строк) и столбцы смешаны. Я использую Python с pandas и numpy. Очень много в стадии обучения учащимся, используя Python.Риски, меняющие ответы NaN на ноль в Python DataFrame
- В некоторых столбцах были ответы Y или N на вопросы (и они заполнены «Y» или «N»).
- Некоторые из них были вопросы о масштабах с 5 возможных ответов. В файле CSV каждый ответ (согласен, не согласен и т. Д.) Имеет свой столбец. Это импортировано как 1 для да и NaN в противном случае.
- Другие вопросы имели до 10 возможных ответов (например, для возраста), и они импортировались как строка в одном столбце, то есть «a. 0-18» или «b. 19-25» и т. Д. Их изменение будет интересным!
По мере прохождения я меняю ответы на Y/N на 1 или 0. Однако для столбцов шкалы likert я обеспокоен тем, что может быть риск сделать то же самое. Есть ли у кого-нибудь мнение относительно того, было бы предпочтительнее оставить данные для них как NaN? Пол одинаковый - для мужчин есть отдельная колонка, а для женщин - одна, а для да и NaN - 1.
Я намереваюсь использовать Python для анализа данных/составления карт (будет импортирован matplotlib & морским путем). Поскольку это ново для меня, я предполагаю, что изменения, которые я сейчас внес, могут иметь непреднамеренные последствия позже!
Любое руководство, которое вы можете дать, было бы высоко оценено.
Заранее спасибо.
Спасибо за ваши советы Ник + размещение кода выше. Это очень полезно, и я ценю, что вы нашли время, чтобы помочь. Я бы поднял вас, но я не могу на данный момент (недостаточно репутации), но, пожалуйста, знайте, что я благодарен вам за вашу помощь. – gincard
@ gincard, если ответ отвечает на ваш вопрос, вы можете принять его с помощью галочки. –