У меня есть кадр данных pandas с 21 столбцом. Я фокусируюсь на подмножестве строк, которые имеют точно такие же значения данных столбца, за исключением 6, которые являются уникальными для каждой строки. Я не знаю, какие заголовки столбцов эти 6 значений соответствуют априори.Сравнение строк фрейма данных pandas (строки имеют некоторые перекрывающиеся значения)
Я попытался преобразовать каждую строку в объекты индекса и выполнить операцию установки на две строки. Ex.
row1 = pd.Index(sample_data[0])
row2 = pd.Index(sample_data[1])
row1 - row2
, который возвращает объект Index, содержащий значения, уникальные для row1. Затем я могу вручную вывести, какие столбцы имеют уникальные значения.
Как я могу программно захватить заголовки столбцов, которые соответствуют этим значениям в исходном фрейме данных? Или есть способ сравнить две или несколько строк данных данных и извлечь 6 разных значений столбцов для каждой строки, а также соответствующие заголовки? В идеале было бы неплохо создать новый фреймворк с уникальными столбцами.
В частности, есть ли способ сделать это, используя операции набора?
спасибо.
Так что группа строк, которые являются 15-в-общего , 6-разные, а также другие строки, которые не соответствуют этому шаблону? [IOW, нам нужно обнаружить это «подмножество строк» или это уже сделано?] – DSM
может отправить пару строк строк? – Jeff