У меня есть большой набор данных, который я использую для обучения наивного классификатора с помощью Apache Mahout. Я использую классификатор, чтобы классифицировать кучу документов (это похоже на мой тестовый набор). Способ классификации документов выглядит следующим образом:Как сделать классификацию онлайн в Apache Mahout?
Я нахожу нормализованные векторы tf-idf для тестового документа. Для нахождения idf я рассматриваю только тестовые документы, а не обучение.
Однако после классификации тестовых документов я получу больше документов для классификации, и мне нужно сначала рассчитать tf-idf для новых документов. Одним из решений является перерасчет tf-idf для всех тестовых документов (старых, а также новых), а затем повторная классификация их всех. В этом случае каждый раз, когда я получаю новый документ, мне нужно пересчитать tf-idf. Мой вопрос заключается в том, есть ли лучшее решение для этой онлайн-классификации?