2
Я написал такой код:Генерирование ключевых слов с помощью Apache Спарк и mllib
val hashingTF = new HashingTF()
val tfv: RDD[Vector] = sparkContext.parallelize(articlesList.map { t => hashingTF.transform(t.words) })
tfv.cache()
val idf = new IDF().fit(tfv)
val rate: RDD[Vector] = idf.transform(tfv)
Как получить топ-5 ключевых слов из «скорости» RDD для каждого элемента articlesList?
ADD:
articlesList содержит объекты:
case class ArticleInfo (val url: String, val author: String, val date: String, val keyWords: List[String], val words: List[String])
слов содержит все слова из статьи.
Я не понимаю структуру курса, в документации говорит:
@return an RDD of TF-IDF vectors
Я не думаю, что вы предоставили достаточно информации о том, что в articlesList, или что заканчивается темпом. Но, возможно, вам нужен rate.top (5) для подходящего заказа? –
Если слова содержат только определенные термины, то частота вычисляемых членов всех членов будет одинаковой, так как каждый член встречается только один раз в списке разных членов. –
Извините, все слова не отличаются. – BiTOk