Пытается удалить строки с отсутствующими данными, которые есть? этот случай и преобразовать последний столбец (доход) в boolean. Последующие пары ответов на StackOverflow, но все равно не сработают. Вот код:Python (Pandas) - Опустить строки с NA и преобразовать значения в boolean
%pylab inline
import numpy as np
import pylab as pl
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
fileURL = 'http://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data'
df = pd.read_csv(fileURL,
names=['age','type_employer', 'fnlwgt', 'education',
'education_num', 'marital', 'occupation', 'relationship',
'race','sex','capital_gain', 'capital_loss', 'hr_per_week','country', 'income'],
na_values = ['?'])
df = df.dropna(how='any')
boolean = {'>50K': True, '<=50K': False}
df['income'].map(boolean)
df
Спасибо.
В каком виде это не работает? – mdurant
строки с '?' все еще существуют, значения <=50K' and '> 50K 'все еще существуют вместо true/false –