2016-04-07 6 views
2

Я новичок, занимающийся некоторой работой в Sklearn, используя SGDClassifier, для классификации текстов с одним предложением с использованием меток. (Подумайте Ham/Спам электронной почты, например) Вот мой трубопровод:Внеочередное обучение для конвейеров Sklearn

clf = SGDClassifier(fit_intercept=True, loss='modified_huber', alpha=.0001, shuffle=True, 
         n_iter=15, n_jobs=-1, penalty='elasticnet') 
vectorizer = TfidfVectorizer(analyzer='char_wb', ngram_range=(3, 5), lowercase=True, stop_words=stopset, 
          use_idf=True, norm='l2') 
pipeline = Pipeline([ 
    ('mapper', vectorizer), 
    ('clf', clf), 
]) 

Я знаком с использованием partial_fit, чтобы избежать необходимости загружать весь тренировочный набор данных в памяти (Out-оф-ядра обучения), но мой вопрос в том, можно ли классификатору позвонить partial_fitпосле начальный учебный комплект был загружен в память.

В моем примере использования, представьте, что каждый текст, который мой алгоритм должен классифицировать после обучения, имеет связанные с ним «относительные» тексты, которые имеют чрезвычайно похожие функции и с той лишь разницей, что это опечатки в тексте. Я бы хотел, чтобы эти «относительные» тексты были автоматически добавлены к знаниям классификатора под тем же ярлыком, что и исходный адрес электронной почты, поэтому обычные орфографические ошибки, которые уклоняются от алгоритма, будут правильно помечены.

В сущности, я хочу, чтобы классификатор, способный к обновлению, был бы лучшим способом сделать это в python?

ответ

0

Как я понимаю ваш вопрос, у вас есть классификатор, который уже прошел предварительную подготовку по некоторому начальному набору, и вы хотели бы сделать прогнозы по новым наблюдениям, а затем добавить эти наблюдения (как только мы узнаем, что было фактическим метки этих наблюдений) для дальнейшей подготовки вашей модели.

Я действительно думал, что это можно легко сделать, позвонив по телефону partial_fit с этими новыми наблюдениями, без привязок (так сказать). This - очень хороший пример, и он кажется адаптированным к вашим целям.

Смежные вопросы