У меня есть большая разреженная матрица из scipy (300k x 100k со всеми двоичными значениями, в основном нулями). Я хотел бы установить строки этой матрицы как RDD, а затем выполнить некоторые вычисления в этих строках - оценить функцию в каждой строке, оценить функции на парах строк и т. Д.Создайте разреженный RDD из scipy разреженной матрицы
Главное, что это довольно редкий и я не хочу взорвать кластер - могу ли я преобразовать строки в SparseVectors? Или, возможно, перевести все это на SparseMatrix?
Можете привести пример, где вы читаете в разреженном массиве, устанавливаете строки в RDD и вычисляете что-то из декартова продукта этих строк?
Попробуйте использовать [pyspark] (https://spark.apache.org/docs/latest/api/python/pyspark.mllib.html?highlight=sparsematrix#pyspark.mllib. linalg.SparseMatrix). –
@EliSadoff Я использую pyspark, проблема в том, что я не знаю, какие объекты использовать или как их настроить. – cgreen
А, я этого не осознавал. Я думал, вы пытаетесь понять, как получить его от python до scala. –