У меня есть dataframe, состоящий из имени штата и имени города. Тем не менее, названия городов - это не просто Питтсбург, Филадельфия и т. Д. Название города может содержать то, что я называю престижными именами. Вот небольшой примерpandas как устранить повторяющиеся строки до их возникновения
State RegionName
Pennsylvania California (California Uni...
Pennsylvania Carlisle (Dickinson College)
Pennsylvania Cecil B. Moore, Philadelphia, also...
...
Pennsylvania University City, Philadelphia (Drexel Universi...
Мне нужно очистить эти данные, удалив информацию в скобках и т. Но мой вопрос в этом. И Сесил Б. Мур, и университетский город являются частями Филадельфии. Если я переименую эти значения, у меня есть два ряда Пенсильвании Филадельфия в моем наборе данных. Я не хочу этого.
Итак, с точки зрения науки о данных, приемлемо ли мне просто удалить одну из этих строк и переименовать значение RegionName в другом? Или есть какой-то способ, в пандах, «объединить» эти строки после очистки и переименования.
Эти данные будут в конечном итоге состоять в браке с жилищными ценностями по названию штата и региона (города).
Спасибо
Вы хотите сохранить регионы суб-города, а также название города или просто название города? Если вы хотите сохранить только название города, вы можете удалить дубликаты после проглатывания. – James
@James Если я правильно вас понимаю, оба этих города будут переименованы в Филадельфию, и вся информация будет очищена от данных. Итак, вы говорите, что drop_duplicates() удалит одну из них, оставив другую? –
да. если в строках 1, 3 и 7 есть Пенсильвания, Филадельфия для государства, RegionName, то с помощью 'drop_duplicates()' будут удалять строки 3 и 7. Это предполагает, что других столбцов нет. – James