2017-01-25 3 views
0

Я использую внутреннее соединение в pyspark оболочке, как это:запутанные внутреннее соединение в pyspark

tab_df=ori_df.join(ori_df,ori_df.columns,'inner') 

Так как я использую ту же таблицу для внутреннего соединения, то следует ожидать, что tab_df.count() должен быть равен как ori_df.count(), но tab_df.count() дай мне 0!

ответ

0

использовать эту команду:

tab_df = ori_df.join(ori_df, ['column_name']) 

pyspark использует внутреннее соединение по умолчанию

я пытался в моем компьютере, чтобы соединить две одинаковые таблицы, и она работает

Почему вы хотите присоединиться два же таблицы в любом случае?

+0

просто нужно проверить, идентичны ли две таблицы с точки зрения его данных, спасибо за ваш ответ – xiaoxin

Смежные вопросы