2016-08-16 3 views
1

Я соскабливаю приблизительно 200 000 веб-сайтов, ища определенные типы средств массовой информации, размещенные на сайтах малых предприятий. У меня есть маринованный linearSVC, который я тренировал, чтобы предсказать вероятность того, что ссылка, найденная на веб-странице, содержит носители типа, который я ищу, и работает довольно хорошо (общая точность около 95%). Тем не менее, я хотел бы, чтобы скребок периодически обновлял классификатор с новыми данными по мере того, как он царапается.добавить данные о тренировках в существующие LinearSVC

Итак, мой вопрос: если я загрузил маринованный sklearn LinearSVC, есть ли способ добавить новые данные обучения без переподготовки всей модели? Или мне нужно загрузить все предыдущие данные обучения, добавить новые данные и подготовить совершенно новую модель?

ответ

2

Вы не можете добавлять данные в SVM и добиваться того же результата, как если бы вы добавили его в исходный набор тренировок. Вы можете переучиваться с расширенным набором тренировок, начиная с предыдущего решения (должно быть быстрее) или тренироваться только по новым данным и полностью отклоняться от предыдущего решения.

Есть только несколько моделей, которые могут делать то, что вы хотели бы достичь здесь - например, регрессия хребта или линейный дискриминантный анализ (и их ядро ​​- регрессия хребта ядра или ядро ​​Fischer Discriminant, или «экстремальные» -конвертеры - ELM или EEM), которые обладают способностью добавлять новые данные обучения «на лету».

+0

Могут ли упомянутые вами модели служить хорошими классификаторами бинарных текстов и соответствуют ли они SVC в своей точности? Спасибо! – dataSci

+0

Они все могут служить двоичными классификаторами, и в некоторых проблемах они будут сильнее, чем svm. Nlp - очень специфическая область (очень внутренняя дольвер), которую вы могли проверить сами. Также наивный Bayes haa это свойство – lejlot

+0

Отлично, спасибо! – dataSci

Смежные вопросы