Я использую кластер k-mean для группировки набора новостей. Я использую модель суммирования слов для представления документов, более конкретно, каждый документ представлен в виде вектора частоты.Добавление новых терминов в модель суммарного слова
Мой вопрос: как я могу добавить новые документы без необходимости пересчитывать все временные векторы термина (видно, что словарь, содержащий все термины для всех документов, изменится)?
Вы знаете, как это реализовано в TfidfVectorizer scikit? – pnsilva
@pnsilva: что именно? Игнорирование новых терминов - это то, что делает 'TfidfVectorizer.transform'; хеширование функций [работает в процессе] (https://github.com/scikit-learn/scikit-learn/pull/909) по-настоящему; третья возможность напрямую не поддерживается. –