Я работаю над «категоризации текста с помощью получения информации, PCA и генетического алгоритма» Но после выполнения Preprocessing (Морфологический, удаление стоп-слов, TFIDF) на документе м спутать, как двигаться вперед для информации усиления части.Вычисление коэффициента усиления информации для текстового файла?
моего из файла содержит слова и там значение TFIDF.
как WORD - TFIDF СТОИМОСТЬ
вместе (слово) - 0,235 (значение tfidf)
приходит (слово) - 0,2548 (значение tfidf)
при использовании WEKA для получения информации ("InfoGainAttributeEval.java") для этого требуется .arff формат файла в качестве входного сигнала.
Есть ли какие-либо преобразования текст файл в .arff формат. или любым другим способом преформы Информационная прибыль, отличная от weka?
Есть ли другой открытый источник для вычисления коэффициента усиления информации для документа?
Почему отрицательный (downvote)? – Ashish