У меня есть свод N документов, классифицированных как спам /нет спама. Я следую стандартной процедуре предварительной обработки данных в R (code here). Предварительная обработка заканчивается DocumenTermMatrix
с использованием весов как tfidf.Классификация/Прогнозирование в R
Теперь я хочу классифицировать новые документы с помощью моей модели.
Как я могу вычислить соответствующий DocumentVector
(с использованием ТФ документа и idfs из корпуса) для одного нового документа? Я хотел бы избежать пересчета DocumentTermMatrix
для всего корпуса.
Вопрос на самом деле связан с последним предложением «Единственное различие заключается в том, что ваш новый документ должен обрабатываться так же, как и примеры обучения (например, удалить стоп-слова, tf-idf, ...)». Как получить этот DocumentVector? Используемая модель не имеет отношения к вопросу. – elyase
во время тестирования - вы используете значения для idf из учебных корпусов, а tf зависит только от тестовой статьи. Практически: http: //bostondecision.com/2012/05/16/how-to-build-a-text-mining-machine-learning-document-classification-system-in-r/, http: // web. letras.up.pt/bhsmaia/EDV/apresentacoes/Bradzil_Classif_withTM.pdf или http://stats.stackexchange.com/questions/14219/how-well-does-r-scale-to-text-classification-tasks – xhudik