2014-01-11 2 views
1

Я работаю над «категоризации текста с помощью получения информации, PCA и генетического алгоритма» Но после выполнения Preprocessing (Морфологический, удаление стоп-слов, TFIDF) на документе м спутать, как двигаться вперед для информации усиления части.Вычисление коэффициента усиления информации для текстового файла?

моего из файла содержит слова и там значение TFIDF.

как WORD - TFIDF СТОИМОСТЬ

вместе (слово) - 0,235 (значение tfidf)

приходит (слово) - 0,2548 (значение tfidf)

при использовании WEKA для получения информации ("InfoGainAttributeEval.java") для этого требуется .arff формат файла в качестве входного сигнала.

Есть ли какие-либо преобразования текст файл в .arff формат. или любым другим способом преформы Информационная прибыль, отличная от weka?

Есть ли другой открытый источник для вычисления коэффициента усиления информации для документа?

+0

Почему отрицательный (downvote)? – Ashish

ответ

0

Я нашел свой ответ. В этом случае мы должны сгенерировать файл arff.

В .arff файл

@RELATION раздел будет содержать все слова, присутствующие в целом документ после предварительной обработки .each слова будет иметь типа реального, потому что значение tfidf является реальным значением.

@data раздел будет содержать их tfidf значение, вычисленное в ходе предварительной обработки . , например, сначала будет содержать Значение tfidf все слова, представленные в первом документе, и последний колумн.

@RELATION filename 
@ATTRIBUTE word1 real 
@ATTRIBUTE word2 real 
@ATTRIBUTE word3 real 
. 
. 
. 
.so on 
@ATTRIBUTE class {cacm,cisi,cran,med} 

@data 
0.5545479562,0.27,0.554544479562,0.4479562,cacm 
0.5545479562,0.27,0.554544479562,0.4479562,cacm 
0.55454479562,0.1619617,0.579562,0.5542,cisi 
0.5545479562,0.27,0.554544479562,0.4479562,cisi 
0.0,0.2396113617,0.44479562,0.2,cran 
0.5545479562,0.27,0.554544479562,0.4479562,carn 
0.5545177444479562,0.26196113617,0.0,0.0,med 
0.5545479562,0.27,0.554544479562,0.4479562,med 

после создания этого файла вы можете передать этот файл в качестве входных данных для InfoGainAttributeEval.java. и это работает для меня.

+0

если какая-либо проблема в понимании выше процесса просто добавьте комментарий – Ashish

Смежные вопросы