2016-06-06 5 views
1

Привет, я хочу удалить стоп-слова из строки в Spark.Удаление стоп-слов из строки в искры

Скажем, у меня есть входной строки «Привет-люди», то я хочу выход быть (привет люди), но я получаю это как (hellopeople)

Мой код:

def processLine(s: String, stopWords: Set[String]): Seq[String] = { 
    s.replaceAll("[^a-zA-Z ]", "").toLowerCase().split("\\s+") 
    s.filter(!stopWords.contains(_)) 
    s.toSeq 
} 

ответ

0

Попробуйте это:

def processLine(s: String, stopWords: Set[String]): Seq[String] = { 

    s.replaceAll("[^a-zA-Z ]", " ") 
     .toLowerCase() 
     .split("\s+") 
     .filter(!stopWords.contains(_)).toSeq 
} 

Там находится на одно изменение, в replaceAll, "" вместо ""

+1

Привет, спасибо, это сработало :) –

Смежные вопросы