Как эффективно объединить/объединить несколько Spark DataFrames (Scala)? Я хочу присоединиться к столбцу, который является общим для всех таблиц, «Дата» ниже и получить (вроде) разреженный массив в результате.Как объединить объединение нескольких DataFrames в Spark Scala Эффективное полное внешнее соединение
Data Set A:
Date Col A1 Col A2
-----------------------
1/1/16 A11 A21
1/2/16 A12 A22
1/3/16 A13 A23
1/4/16 A14 A24
1/5/16 A15 A25
Data Set B:
Date Col B1 Col B2
-----------------------
1/1/16 B11 B21
1/3/16 B13 B23
1/5/16 B15 B25
Data Set C:
Date Col C1 Col C2
-----------------------
1/2/16 C12 C22
1/3/16 C13 C23
1/4/16 C14 C24
1/5/16 C15 C25
Expected Result Set:
Date Col A1 Col A2 Col B1 Col B2 Col C1 Col C2
---------------------------------------------------------
1/1/16 A11 A21 B11 B12
1/2/16 A12 A22 C12 C22
1/3/16 A13 A23 B13 B23 C13 C23
1/4/16 A14 A24 C14 C24
1/5/16 A15 A25 B15 B25 C15 C25
Это похоже на полное внешнее соединение на нескольких столах, но я не уверен. Есть ли более простой/эффективный способ получить этот разреженный массив без метода Join на DataFrames?
Не могли бы вы рассказать о том, как это будет работать? – banncee
Я отредактировал свой ответ и добавил пример кода. Надеюсь, это поможет. –