Я хотел бы сравнить два набора данных и определить конкретные случаи несоответствий между ними (то есть, какие переменные были разными).Идентификация конкретных различий между двумя наборами данных в R
В то время как я выяснил, как определить, какие записи не тождественны между двумя наборами данных (с помощью функции подробно описана здесь: http://www.cookbook-r.com/Manipulating_data/Comparing_data_frames/), я не знаю, как флаг, который переменных различны.
E.g.
Набор данных A: набор
id name dob vaccinedate vaccinename dose
100000 John Doe 1/1/2000 5/20/2012 MMR 4
100001 Jane Doe 7/3/2011 3/14/2013 VARICELLA 1
данных B:
id name dob vaccinedate vaccinename dose
100000 John Doe 1/1/2000 5/20/2012 MMR 3
100001 Jane Doee 7/3/2011 3/24/2013 VARICELLA 1
100002 John Smith 2/5/2010 7/13/2013 HEPB 3
Я хочу, чтобы определить, какие записи различны, и какие конкретные переменной (ы) имеют расхождения. Например, запись John Doe имеет 1 несоответствие в dose
, а запись Jane Doe имеет 2 несоответствия: в name
и vaccinedate
. Кроме того, набор данных B имеет одну дополнительную запись, которая не была в наборе данных A, и я хотел бы также идентифицировать эти экземпляры.
В конце концов, цель состоит в том, чтобы найти частоту «типов» ошибок, например. сколько записей имеет несоответствие в вакцинации, вакцинальном имени, дозе и т. д.
Спасибо!
Попробуйте [расстояние Хэмминга] (https://en.wikipedia.org/wiki/Hamming_distance) – Gathide