Я использую внутреннее соединение в pyspark оболочке, как это:запутанные внутреннее соединение в pyspark
tab_df=ori_df.join(ori_df,ori_df.columns,'inner')
Так как я использую ту же таблицу для внутреннего соединения, то следует ожидать, что tab_df.count()
должен быть равен как ori_df.count()
, но tab_df.count()
дай мне 0!
просто нужно проверить, идентичны ли две таблицы с точки зрения его данных, спасибо за ваш ответ – xiaoxin