Я использую следующий код для создания модели кластеризации, а затем классифицировать каждую запись к определенной группе:pyspark: добавление/слияние PythonRDD к pyspark dataframe
from pyspark.mllib.clustering import KMeans
from pyspark.mllib.linalg import Vectors
spark_df = sqlContext.createDataFrame(pandas_df)
rdd = spark_df.rdd.map(lambda data: Vectors.dense([float(c) for c in data]))
model = KMeans.train(rdd, 2, maxIterations=10, initializationMode="random")
result = model.predict(red)
Как добавляемый предсказанному результат обратно в spark_df как дополнительный столбец? Благодаря!
Почему бы не использовать 'ml' в первую очередь? – zero323
Мне не удалось преобразовать spark_df (кадр данных) в набор данных искры. И если я просто использую фрейм данных с ml, это не сработает. Любое предложение о том, как преобразовать фрейм данных в набор данных? Благодаря! – Edamame
Если я использую ml: model = kmeans.fit (spark_df), я получил ошибки: AnalysisException: u «не может разрешить« функции »с учетом входных столбцов: [field_1, field_2, ... field10]; Поэтому мне кажется, что я не могу использовать spark_df напрямую – Edamame