2016-05-03 4 views
0

Я стараюсь классифицировать документы на основе их суммарного представления слов (Особенности: 1000). Для классификации я использую SVM, кажется, что иногда SVM не заканчивается и работает бесконечно. (Запуск sci-kit: SVC (C = 1.0, kernel = 'linear', cache_size = 5000, verbose = True)) Теперь я ищу решение, я подумывал применить MinMax-Scaler для получения вычисления эффективное представление документов. Но разве я испортил свою сумку с представлением слов с нормализацией функции?Текст-классификация: Сумка слов с MinMax-Scaler

Заранее благодарен!

ответ

0

Он заканчивается, просто довольно медленно. Масштабирование вашего мешка слов не будет «закручивать» что-либо - на самом деле это очень распространенная техника, вы, скорее всего, не будете моделью, в которой используется сумка слов - вы либо используете набор слов (которые масштабируются по определению), либо som-мерный нормализованный пакет слова, такие как tf-idf (что обычно лучше, чем просто «раздавливание» через min max). В общем, minmax - очень грубая техника, чрезвычайно чувствительная к выбросам (таким образом, если у вас есть документ, состоящий из 1000 вхождений слова «foo», ваш размер «foo» будет раздавлен на 1000, хотя это всего лишь один выброс). Следовательно, скорее предпочитают tfidf или, по крайней мере, стандартный скаляр.

Смежные вопросы