2016-05-03 1 views
1

У меня есть кадр панды данных, которая выглядит следующим образом:Удаление строк в панд dataframe где граф метка> 2

**ReviewerID**   **ReviewText**  **Categories**  **ProductId** 

    1212     good product   Mobile    14444425 
    1233     will buy again  drugs    324532 
    5432     not recomended  Mobile    789654123 

Я хочу, чтобы удалить все строки, в которых значение категории не появляется по крайней мере в два раза. Полученный dataframe должен выглядеть следующим образом:

**ReviewerID**  **ReviewText**  **Categories**  **ProductId** 

    1212     good product   Mobile    14444425 
    5432     not recomended  Mobile    789654123 

Я новичок в Python и панд, помощь будет оценена.

ответ

1

Я думаю, что вам нужно filter:

print df.groupby('Categories').filter(lambda x: len(x) > 1) 
    ReviewerID  ReviewText Categories ProductId 
0  1212 good product  Mobile 14444425 
2  5432 not recomended  Mobile 789654123 

Docs.

+0

Извините, что такое серьезный террор? – jezrael

+0

Я обновил df, и теперь он отлично работает, спасибо –

Смежные вопросы