Spark IDFModel по номерам

Я хотел бы выполнить модель TF-IDF по данным, где «документ» - это числовые идентификаторы (вместо текста). Поэтому я не хочу хешировать их, просто используйте числовые значения. Любой простой способ создать org.apache.spark.mllib.linalg.VectorUDT? Должен ли я писать собственное собственное хэширование HashingTF?
Или проще вычислить tfidf самостоятельно?Spark IDFModel по номерам

источник

2016-09-29 kecso

Вы можете использовать ** CountVectorizer ** вместо ** HashingTF **. ** CountVectorizer ** также может использоваться для получения векторов частоты. –

Это хорошо работает, спасибо. Напишите это как ответ и возьмите кредит на это;) – kecso

Я рад Это помогло :-) –

Вы можете использовать CountVectorizer вместо HashingTF. CountVectorizer также может использоваться для получения векторов частоты.

Чтобы использовать CountVectorizer и впоследствии IDF вы должны использовать DataFrame вместо РДА, потому что CountVectorizer поддерживаются только в мл упаковки.

источник

2016-09-30 07:59:53

Spark IDFModel по номерам

ответ

Смежные вопросы