Я использую scikit-learn для кластера текстовых документов. Я использую классы CountVectorizer, TfidfTransformer и MiniBatchKMeans, чтобы помочь мне в этом. Все текстовые документы добавляются в систему все время, а это значит, что мне нужно использовать классы выше, чтобы преобразовать текст и предсказать кластер. Мой вопрос: как хранить данные на диске? Должен ли я просто рассортировать объекты векторизатора, трансформатора и kmeans? Должен ли я просто сохранять данные? Если да, то каким образом я могу добавить его обратно в объекты векторизатора, трансформатора и kmeans?Сохраняемые данные в sklearn
Любая помощь будет принята с благодарностью
Мы знаем, насколько хрупким это, и нет, мы в настоящее время не гарантируют 100% обратную совместимость (хотя каждое несовместимое изменение должно обсуждаться на ML, и совместимость обычно сохраняется для нескольких выпусков). Лучшее решение для сериализации еще не найдено. –
На работе в Google буферы протокола играют роль простого в использовании и перекрестного формата сериализации языка. В свое время хобби я использовал Thrift, который тоже неплохо работает. –