Я пытаюсь выполнить классификацию документов с помощью поддерживающих векторных машин (SVM). У документов, которые у меня есть, есть электронная почта. У меня есть около 3000 документов для обучения классификатора SVM и набор тестовых документов около 700, для которых мне нужна классификация.Классификация документов с использованием LSA/SVD
Первоначально я использовал двоичный DocumentTermMatrix как вход для обучения SVM. Я получил около 81% точности для классификации с данными испытаний. DocumentTermMatrix использовался после удаления нескольких стоп-слов.
Поскольку я хотел улучшить точность этой модели, я попытался использовать уменьшение размеров на основе LSA/SVD и использовать приведенные уменьшенные коэффициенты в качестве входных данных для модели классификации (я попытался использовать 20, 50, 100 и 200 сингулярных значений из оригинальная сумка ~ 3000 слов). В каждом случае эффективность классификации ухудшалась. (Еще одна причина использования LSA/SVD заключалась в том, чтобы преодолеть проблемы памяти с одной из переменных ответа, которая имела 65 уровней).
Может ли кто-нибудь указать некоторые рекомендации относительно того, как улучшить характеристики классификации LSA/SVD? Я понимаю, что это общий вопрос без каких-либо конкретных данных или кода, но я бы оценил некоторые данные экспертов о том, где начать отладку.
FYI, я использую R для этого текста предварительной обработки (пакеты: тм, снежный ком, LSA) и строительство классификационных моделей (упаковка: kernelsvm)
спасибо.
Использовали ли вы такое же преобразование низкого ранга во время классификации? Вектор вашего тестового документа также должен быть уменьшен по размеру. – adi