2016-09-29 2 views
1

Я хотел бы выполнить модель TF-IDF по данным, где «документ» - это числовые идентификаторы (вместо текста). Поэтому я не хочу хешировать их, просто используйте числовые значения. Любой простой способ создать org.apache.spark.mllib.linalg.VectorUDT? Должен ли я писать собственное собственное хэширование HashingTF?
Или проще вычислить tfidf самостоятельно?Spark IDFModel по номерам

+1

Вы можете использовать ** CountVectorizer ** вместо ** HashingTF **. ** CountVectorizer ** также может использоваться для получения векторов частоты. –

+0

Это хорошо работает, спасибо. Напишите это как ответ и возьмите кредит на это;) – kecso

+0

Я рад Это помогло :-) –

ответ

0

Вы можете использовать CountVectorizer вместо HashingTF. CountVectorizer также может использоваться для получения векторов частоты.

Чтобы использовать CountVectorizer и впоследствии IDF вы должны использовать DataFrame вместо РДА, потому что CountVectorizer поддерживаются только в мл упаковки.

Смежные вопросы