2015-08-17 2 views
0

У меня есть ряд переменных в наборе данных, которые являются a) разреженными и b) уникальными (в основном ...). Что-то вроде этого:Кодирование scikit-learn для «Null/Not Null»?

Foo NaN NaN Bar NaN NaN NaN Baz

Хотя фактическое значение этих переменных интересно в некоторых контекстах, я часто просто заменив их True/False для Null/Не Null.

Мне было интересно, существует ли это как кодировщик для scikit-learn - и если это не так, есть ли у кого-нибудь представление о том, как его реализовать?

+0

np.isnan (массив)? или pd.notnull() в зависимости от типа объекта, который вы используете для представления ваших данных. – stellasia

ответ

1

следующие работы для меня:

class NullNotNullTransformer(BaseEstimator, TransformerMixin): 
    """ 
    Transforms data according to null/not-null scheme. 
    """ 
    def fit(self, X): 
     return self 

    def transform(self, X): 
     return pd.isnull(X) 
Смежные вопросы