Итак, я импортировал и объединил 4 csv в один dataframe, называемый данными. Однако при проверке индекса в dataframe с:Reindex dataframe с повторяющимися значениями индекса
index_series = pd.Series(data.index.values)
index_series.value_counts()
Я вижу, что несколько записей индекса имеют 4 отсчетов. Я хочу полностью переиндексировать DataFrame данных, поэтому каждая строка теперь имеет уникальное значение индекса. Я пробовал:
data.reindex(np.arange(len(data)))
, который дал ошибку «ValueError: невозможно переиндексировать с дублирующей оси». Поиск в Google приводит меня к мысли, что эта ошибка связана с тем, что существует до 4 строк, которые имеют одинаковое значение индекса. Любая идея, как я могу сделать это переиндексации, не отбрасывая никаких строк? Я не особо забочусь о порядке строк, так как я всегда могу его сортировать.
UPDATE: Итак, в конце концов, я нашел способ переиндексации, как я хотел.
data['index'] = np.arange(len(data))
data = data.set_index('index')
Как я понимаю, я просто добавил новый столбец под названием «index» в свой кадр данных, а затем установил этот столбец в качестве моего индекса. Что касается моих csv, то они были четырьмя csv в разделе «скачать данные кредита» на this page of Lending Club loan stats.
Можете ли вы показать нам свой DataFrame? Или еще лучше, как создать пример DataFrame? – chrisaycock
В дополнение к комментарию @ chrisaycock вы могли бы даже предоставить некоторые образцы данных из ваших csv-файлов, поэтому ваша проблема может возникнуть из-за неправильного чтения csv. – albert