Как создать собственный список слов остановки?

Мне нравится создавать список слов остановки для неанглоязычного языка. Какие показатели лучше всего подходят для создания списка стоп-слов: только временная частота для всей коллекции документов или показателей tf-idf?Как создать собственный список слов остановки?

источник

2013-10-06 vikifor

Можете ли вы подробнее рассказать о том, что вы создаете? Я не могу найти какую-либо информацию о том, какую программу вы используете и чего пытаетесь достичь ... Пожалуйста, будьте более конкретным. – Raptor

Мне нравится делать кластеризацию документов для документов, написанных на македонский язык. Я использую инструментарий Weka. – vikifor

Вы можете использовать R, как это:

my.list <- unlist(read.table("C:/Users/blabla/Desktop/files/yourstopword.txt", 
          stringsAsFactors=FALSE)) 
my.stops <- c(my.list) 
mycorpus <- tm_map(myCorpus, removeWords, my.stops)

источник

2015-09-17 15:39:47

Как создать собственный список слов остановки?

ответ

Смежные вопросы