У меня есть несколько векторов Mahout в моих hdfs в формате файла последовательности. Можно ли каким-либо образом использовать одни и те же векторы для обучения модели KMeans в Spark? Я мог бы просто преобразовать существующие векторы Mahout в векторы Spark (mllib), но я хотел бы избежать этого.Поезд Spark k-означает с векторами Mahout
1
A
ответ
1
Магирующие векторы непосредственно не поддерживаются Spark. Вы бы - в соответствии с вашими соображениями - должны преобразовать их в Spark Vectors.
val sc = new SparkContext("local[2]", "MahoutTest")
val sfData = sc.sequenceFile[NullWritable, MVector](dir)
val xformedVectors = sfData.map { case (label, vect) =>
import collection.JavaConversions._
(label, Vectors.dense(vect.all.iterator.map{ e => e.get}.toArray))
}
Смежные вопросы
- 1. Как запустить Mahout на Spark
- 2. Как выполнять задания Mahout на Spark Engine?
- 3. Делитесь данными между Spark и Hadoop (Mahout)
- 4. При запуске mahout spark-itemsmilarity дает ошибку?
- 5. Prediction.io - поезд pio с ошибкой
- 6. Разница между векторами apache spark mllib.linalg и векторами spark.util для машинного обучения
- 7. Испытание на искровой поезд. Разгон
- 8. Ошибка при создании приложения Spark с Maven
- 9. Создание модели данных для mahout
- 10. Рекомендации Mahout с категориями
- 11. автозаполнения с векторами - Android
- 12. Fibonacci Последовательность с векторами
- 13. Новый оператор с векторами
- 14. () с двумя векторами
- 15. R функция() с векторами
- 16. MATLAB - Корреляция с векторами
- 17. Ковариация с коллинеарными векторами
- 18. Работа с вложенными векторами
- 19. Работа с векторами C++
- 20. Сортировка с двумя векторами
- 21. Создания Сита с векторами
- 22. Странная проблема с векторами
- 23. структура с векторами
- 24. Редактирование JTable с векторами
- 25. Mahout 0.11.1 искровым Shell NoClassDefFoundError
- 26. Поезд cforest параллельно
- 27. Косинусное расстояние RandomAccessSparseVectors в Mahout
- 28. Поезд каскад классификаторы
- 29. движется поезд автомобилей моделирования
- 30. Линейная регрессия с 3 входными векторами и 4 выходными векторами?
Это действительно не так уж плохо. один распределенный проход по DRM выполняется быстро. При использовании кода Spark-Mahout нет необходимости в файле Sequence. – pferrel