2013-10-06 4 views
0

Мне нравится создавать список слов остановки для неанглоязычного языка. Какие показатели лучше всего подходят для создания списка стоп-слов: только временная частота для всей коллекции документов или показателей tf-idf?Как создать собственный список слов остановки?

+0

Можете ли вы подробнее рассказать о том, что вы создаете? Я не могу найти какую-либо информацию о том, какую программу вы используете и чего пытаетесь достичь ... Пожалуйста, будьте более конкретным. – Raptor

+0

Мне нравится делать кластеризацию документов для документов, написанных на македонский язык. Я использую инструментарий Weka. – vikifor

ответ

0

Вы можете использовать R, как это:

my.list <- unlist(read.table("C:/Users/blabla/Desktop/files/yourstopword.txt", 
          stringsAsFactors=FALSE)) 
my.stops <- c(my.list) 
mycorpus <- tm_map(myCorpus, removeWords, my.stops) 
Смежные вопросы