В SparkSQL
1.6 API (scala) Dataframe
имеет функции для пересечения и за исключением, но не для разницы. Очевидно, что сочетание союза и, за исключением может быть использован для создания разницы:Как получить разницу между двумя DataFrames?
df1.except(df2).union(df2.except(df1))
Но это, кажется, немного неудобно. По моему опыту, если что-то кажется неудобным, есть лучший способ сделать это, особенно в Scala.
Спасибо. Если бы он был там, это, вероятно, все-таки сделало бы что-то вроде этого под обложками. – WillD