У меня такая проблема: мне нужно, чтобы удалить строки, имеющие в столбце А уникальные значения из dataframeУдалить из dataframe уникальных строк
В примере ниже в строке DF1 0 и 3 должны быть удалены
A B C
0 5 100 5
1 1 200 5
2 1 150 4
3 3 500 5
Единственное решение, которое я думал до сих пор это:
- GroupBy (А)
- подсчета строк в каждой группе
- фильтр из отсчетов> 1
- сохранить результат в DF2
- DF1.intersect (DF2)
любые другие идеи? решение для RDD также может помочь, но лучше для DataFrame Спасибо!
спасибо большое! вы прокомментировали мне помощь! – feechka