Я очень новичок в R и заранее извиняюсь, если этот вопрос слишком исправен. Я загрузил две таблицы из онлайн-базы данных и хотел бы идентифицировать общие (и уникальные) записи из двух столбцов. Я хотел бы сравнить столбец «Геном» из таблицы «HPMT» со столбцом «Specie» из таблицы «TS_COG». Мой код ниже:R - Поиск общих записей в столбцах из двух отдельных таблиц
таблицы Импорт и определить столбцы:
HMPT=read.table("HMPtable.csv", header = TRUE, sep = ",", fill=TRUE)
GL=HMPT$Genome
TS=read.table("TS_COG.csv", header = TRUE, sep = ",", fill =TRUE)
SPL=TS$Specie
Определение общих записей между двумя колоннами:
Same=intersect(GL, SPL)
Same
Я прошел по списку, порожденного> То же, и это, как представляется, быть слишком коротким. Я вручную просмотрел два столбца и нашел общие записи, которые не включены в> Same. Должно быть что-то не так с моим форматированием или импортом таблиц. Заранее спасибо.
PS
Насколько чисты ваши данные? Я бы рекомендовал (1) установить 'stringsAsFactors = FALSE' в ваших' read.table() 'вызовах, чтобы убедиться, что все импортировано как есть, и (2) установить' strip.white = T', чтобы избавиться от любых дополнительное пустое пространство (также как аргумент в 'read.table'. – Gregor
Благодарим вас за предложения. Данные довольно чистые, я думаю. Можете ли вы уточнить? Я также попытался импортировать столбец медведя вместо всего столбца и Мне кажется, что список длинный: одна таблица имеет 400 rwos по сравнению с одной с 10 000 строк. –
@Peter Spanos Не могли бы вы попробовать его на меньшем подмножестве и посмотреть, не исчезнет ли проблема? Также, в этом случае , вы можете показать небольшой воспроизводимый пример, используя 'dput'. – akrun