Я соскабливаю приблизительно 200 000 веб-сайтов, ища определенные типы средств массовой информации, размещенные на сайтах малых предприятий. У меня есть маринованный linearSVC, который я тренировал, чтобы предсказать вероятность того, что ссылка, найденная на веб-странице, содержит носители типа, который я ищу, и работает довольно хорошо (общая точность около 95%). Тем не менее, я хотел бы, чтобы скребок периодически обновлял классификатор с новыми данными по мере того, как он царапается.добавить данные о тренировках в существующие LinearSVC
Итак, мой вопрос: если я загрузил маринованный sklearn LinearSVC, есть ли способ добавить новые данные обучения без переподготовки всей модели? Или мне нужно загрузить все предыдущие данные обучения, добавить новые данные и подготовить совершенно новую модель?
Могут ли упомянутые вами модели служить хорошими классификаторами бинарных текстов и соответствуют ли они SVC в своей точности? Спасибо! – dataSci
Они все могут служить двоичными классификаторами, и в некоторых проблемах они будут сильнее, чем svm. Nlp - очень специфическая область (очень внутренняя дольвер), которую вы могли проверить сами. Также наивный Bayes haa это свойство – lejlot
Отлично, спасибо! – dataSci