2011-12-20 2 views
3

Я запускаю алгоритм классификатора наивных байков через apache mahout. У нас есть возможность установить размер графа во время обучения и запуска экземпляра алгоритма.nGrams in apache mahout

Изменение размера моего n-грамма от 1 до 2 приводит к резкому изменению итоговой классификации. Почему это происходит? Как размер n-Grams вносит резкие изменения в результат?

ответ

6

1-граммы слова. 2-граммы (или битрамы) являются парами слов. Это похоже на классификацию документов, основанных на существовании «Объединенных» и «государств», или «Соединенных Штатов». Использование bigrams может иметь некоторые космос и последствия для производительности, но, вероятно, даст лучшие результаты, чем 1 грамм.

+0

Означает ли это, что ngrams прямо пропорциональны точности и обратно пропорциональны масштабируемости? – Greenhorn

+0

Нет, это не так просто. Точность будет зависеть от вашего корпуса. Например, я полагаю, что bigrams более полезны для классификации документов со многими значимыми фразами или собственными именами, такими как юридические документы. Масштабируемость - это отдельный вопрос, так как вы можете решить, сколько n-граммов нужно заботиться отдельно. –

+0

Понял. Спасибо, Шон! – Greenhorn

Смежные вопросы