Я пытаюсь объединить несколько DF вместе. Поскольку, как работает совместная работа, я получил одинаковое имя столбца, дублируемое во всем.Несколько последовательных соединений с pyspark
When called on datasets of type (K, V) and (K, W), returns a dataset of (K, (V, W)) pairs with all pairs of elements for each key.
# Join Min and Max to S1
joinned_s1 = (minTime.join(maxTime, minTime["UserId"] == maxTime["UserId"]))
# Join S1 and sum to s2
joinned_s2 = (joinned_s1.join(sumTime, joinned_s1["UserId"] == sumTime["UserId"]))
Я получил эту ошибку: "" Reference 'UserId' неоднозначно, может быть: UserId # 1578, # 3014 UserId .;»
Что такое правильный способ удаления W из мой набор данных однажды успешно присоединилось
Спасибо! Это сработало. @ zero323 - Я пробовал что-то вроде dfg = df.groupBy (df.UserId) .agg ({«Timer»: «sum», «Timer»: «min», «Timer»: «max», Timer ":" avg "," Actions ":" count "}), но появляется только AVG ... таким образом, использование соединения. Любое предложение? – Ahmet
Создано новую тему, чтобы покрыть этот вопрос: http://stackoverflow.com/questions/38488817/pyspark-multiple-aggregation-funtions-on-a-single-column-of-a-dataframe – Ahmet