2014-09-05 5 views
0

Я использую Weka, чтобы создать матрицу Term Document, используя класс StringToWordVector. Однако, независимо от размера входного корпуса, я могу видеть только 500 терминов/«num attributes» на выходе, а тот же корпус генерирует 549 терминов, когда я использую пакет R tm.Как изменить максимальные атрибуты в Weka?

Я попытался изменить настройку ToKeep, но это не влияет на общее количество сгенерированных условий. Мне кажется, что есть некоторые настройки по умолчанию, которые мне нужно изменить, чтобы увеличить сгенерированные термины. Однако такой конфигурации я не нашел.

Я использую Weka 3.6.11 и NGramTokenizer.

Как заставить Weka генерировать больше терминов?

ответ

0

Я добрался до Weka 3.7.11 и попробовал это, и это сработало.

StringToWordVector filter = new StringToWordVector(); 
filter.setWordsToKeep(Integer.MAX_VALUE); 
Смежные вопросы