Я конкатенирую несколько месяцев csv's
, где более новые версии имеют дополнительные столбцы. В результате, объединение всех них заполняет определенные строки определенных столбцов с помощью NaN
.Выбор другого значения для записей NaN из добавления DataFrames с разными столбцами
Проблема с этим поведением заключается в том, что он смешивает эти NaN
с истинными нулевыми записями из набора данных, которые необходимо легко отличить.
Мое единственное решение на данный момент состоит в том, чтобы заменить исходные NaN на уникальную строку, объединить csv, заменить новые NaN на вторую уникальную строку, заменить первую уникальную строку на NaN.
Учитывая объем данных, которые я обрабатываю, это очень неэффективное решение. Я думал, что есть какой-то способ определить, как Panda's DataFrame
заполнит эти записи, но не смог найти что-либо на нем.
обновленный пример:
A B
1 NaN
2 3
И добавить
A B C
1 2 3
дает
A B C
1 NaN NaN
2 3 NaN
1 2 3
Но я хочу
A B C
1 NaN 'predated'
2 3 'predated'
1 2 3
Вы должны быть более конкретными, добавьте несколько небольших примеров ваших данных и примеров того, чего вы хотите достичь. – plaes
обновил пример того, что происходит и что я хотел бы совершить – Fonti