Я хочу спросить, если у вас есть какие-либо идеи о том, как я могу указать много условий в pyspark, когда я использую .join()pyspark присоединиться несколько условий
Пример: с улья:
query= "select a.NUMCNT,b.NUMCNT as RNUMCNT ,a.POLE,b.POLE as RPOLE,a.ACTIVITE,b.ACTIVITE as RACTIVITE FROM rapexp201412 b \
join rapexp201412 a where (a.NUMCNT=b.NUMCNT and a.ACTIVITE = b.ACTIVITE and a.POLE =b.POLE )\
Но в pyspark я не знаю, как это сделать, потому что следующее:
df_rapexp201412.join(df_aeveh,df_rapexp2014.ACTIVITE==df_rapexp2014.ACTIVITE and df_rapexp2014.POLE==df_aeveh.POLE,'inner')
не работает !!
могли бы вы плзли вставить сообщение об ошибке для DataFrame.join? или попытайтесь использовать keyBy/join в RDD, он очень хорошо поддерживает условие equi-join. –