Я хотел бы выполнить модель TF-IDF по данным, где «документ» - это числовые идентификаторы (вместо текста). Поэтому я не хочу хешировать их, просто используйте числовые значения. Любой простой способ создать org.apache.spark.mllib.linalg.VectorUDT? Должен ли я писать собственное собственное хэширование HashingTF?
Или проще вычислить tfidf самостоятельно?Spark IDFModel по номерам
1
A
ответ
0
Вы можете использовать CountVectorizer вместо HashingTF. CountVectorizer также может использоваться для получения векторов частоты.
Чтобы использовать CountVectorizer и впоследствии IDF вы должны использовать DataFrame вместо РДА, потому что CountVectorizer поддерживаются только в мл упаковки.
Смежные вопросы
- 1. Как сохранить IDFmodel с PySpark
- 2. Сортировка по номерам первых
- 3. Perl сортировать по номерам
- 4. Как отсортировать строку по номерам и порядковым номерам?
- 5. Пользовательский Сортировка по номерам и "-"
- 6. Как удалить файлы по номерам?
- 7. Определить страну по телефонным номерам
- 8. Выбор значений по номерам столбцов
- 9. Работа модуля по отрицательным номерам
- 10. Сортировка массива строки по номерам
- 11. Сортировать по номерам в Angular
- 12. определение дня недели по номерам
- 13. Сортировка строк по номерам символов
- 14. JavaScript - Поиск по отформатированным номерам
- 15. Выбор панд по вызываемым номерам
- 16. сортировать рубиновый массив по номерам
- 17. Разделение строки по номерам между
- 18. Индекс UITableview разделов по номерам
- 19. PostrgreSQL 8.4: Суммирование по номерам счетов
- 20. Oracle тайна с фильтрацией запроса по номерам
- 21. Подмножество файла по номерам строк и столбцов
- 22. Pandas - Сортировка по номерам членов группы
- 23. Список сортировки по заданным порядковым номерам
- 24. Шифр шифрования по номерам в PHP
- 25. DOS пакетная итерация по номерам в списке
- 26. SiriKit: позвонить по нескольким телефонным номерам
- 27. Карта Ключи сортировки по номерам и символам
- 28. Сортировка по номерам версий в PowerShell
- 29. Круглая последовательность чисел по выбранным номерам
- 30. Две таблицы, сортировка по номерам строк; объединить?
Вы можете использовать ** CountVectorizer ** вместо ** HashingTF **. ** CountVectorizer ** также может использоваться для получения векторов частоты. –
Это хорошо работает, спасибо. Напишите это как ответ и возьмите кредит на это;) – kecso
Я рад Это помогло :-) –