0

У меня есть большой набор данных, который я использую для обучения наивного классификатора с помощью Apache Mahout. Я использую классификатор, чтобы классифицировать кучу документов (это похоже на мой тестовый набор). Способ классификации документов выглядит следующим образом:Как сделать классификацию онлайн в Apache Mahout?

Я нахожу нормализованные векторы tf-idf для тестового документа. Для нахождения idf я рассматриваю только тестовые документы, а не обучение.

Однако после классификации тестовых документов я получу больше документов для классификации, и мне нужно сначала рассчитать tf-idf для новых документов. Одним из решений является перерасчет tf-idf для всех тестовых документов (старых, а также новых), а затем повторная классификация их всех. В этом случае каждый раз, когда я получаю новый документ, мне нужно пересчитать tf-idf. Мой вопрос заключается в том, есть ли лучшее решение для этой онлайн-классификации?

ответ

0

При получении нового документа существует несколько подходов. Ваш подход кажется непрактичным. Я хотел бы предложить 2 подхода для расчета Tf-IDF только для нового документа, а затем непосредственно классифицировать:

  1. высчитывает IDF, используя все документы (новый и все ранее увиденные документы)
  2. использовать уже на тестовом наборе расчетный idf

Попробуйте приблизиться к 2 и 3 в тестовом наборе, разделив тестовый набор на два и подтвердите, какой подход лучше подходит для ваших типов документов.

Смежные вопросы