Я запускаю алгоритм классификатора наивных байков через apache mahout. У нас есть возможность установить размер графа во время обучения и запуска экземпляра алгоритма.nGrams in apache mahout
Изменение размера моего n-грамма от 1 до 2 приводит к резкому изменению итоговой классификации. Почему это происходит? Как размер n-Grams вносит резкие изменения в результат?
Означает ли это, что ngrams прямо пропорциональны точности и обратно пропорциональны масштабируемости? – Greenhorn
Нет, это не так просто. Точность будет зависеть от вашего корпуса. Например, я полагаю, что bigrams более полезны для классификации документов со многими значимыми фразами или собственными именами, такими как юридические документы. Масштабируемость - это отдельный вопрос, так как вы можете решить, сколько n-граммов нужно заботиться отдельно. –
Понял. Спасибо, Шон! – Greenhorn