2016-09-21 3 views
1

В sql мы можем, например. do "select * from table, где col1 не включен ('A', 'B');SQL как предложение NOT IN для фреймов данных Pyspark

Мне было интересно, есть ли эквивалент pyspark для этого. Я смог найти функцию isin для sql как предложение «IN», но ничего для «NOT IN».

Поблагодарили бы за любую помощь.

+1

ли эта помощь? http://stackoverflow.com/questions/35870760/filtering-a-pyspark-dataframe-with-sql-like-in-clause – zedfoxus

+0

'foo NOT IN ('a', 'b') == NOT (foo IN ('a', 'b'))) – zero323

ответ

4

У меня была такая же проблема и найденное решение. Если вы хотите, чтобы свести на нет любого состояния (в pySpark представлены в виде Column класса) есть отрицание оператор ~, например:

df.where(~df.flag.isin(1, 2, 3)) # records with flag NOT IN (1, 2, 3) 
Смежные вопросы