2016-11-18 2 views
0

У меня есть dataframe, состоящий из имени штата и имени города. Тем не менее, названия городов - это не просто Питтсбург, Филадельфия и т. Д. Название города может содержать то, что я называю престижными именами. Вот небольшой примерpandas как устранить повторяющиеся строки до их возникновения

State   RegionName 
Pennsylvania  California (California Uni... 
Pennsylvania  Carlisle (Dickinson College) 
Pennsylvania  Cecil B. Moore, Philadelphia, also... 
... 
Pennsylvania  University City, Philadelphia (Drexel Universi... 

Мне нужно очистить эти данные, удалив информацию в скобках и т. Но мой вопрос в этом. И Сесил Б. Мур, и университетский город являются частями Филадельфии. Если я переименую эти значения, у меня есть два ряда Пенсильвании Филадельфия в моем наборе данных. Я не хочу этого.

Итак, с точки зрения науки о данных, приемлемо ли мне просто удалить одну из этих строк и переименовать значение RegionName в другом? Или есть какой-то способ, в пандах, «объединить» эти строки после очистки и переименования.

Эти данные будут в конечном итоге состоять в браке с жилищными ценностями по названию штата и региона (города).

Спасибо

+0

Вы хотите сохранить регионы суб-города, а также название города или просто название города? Если вы хотите сохранить только название города, вы можете удалить дубликаты после проглатывания. – James

+0

@James Если я правильно вас понимаю, оба этих города будут переименованы в Филадельфию, и вся информация будет очищена от данных. Итак, вы говорите, что drop_duplicates() удалит одну из них, оставив другую? –

+0

да. если в строках 1, 3 и 7 есть Пенсильвания, Филадельфия для государства, RegionName, то с помощью 'drop_duplicates()' будут удалять строки 3 и 7. Это предполагает, что других столбцов нет. – James

ответ

4

Просто глотают все подряд, а затем использовать .drop_duplicates(), чтобы удалить повторяющиеся строки из кадра данных.

+0

Работал отлично. Очень признателен –

Смежные вопросы