У меня есть большой файл CSV, например INPUT, с примерно 500 столбцами. У меня также есть DataFrame DF, который содержит подмножество заголовков столбцов INPUT, который изменяется на каждой итерации.Сравнение заголовков столбцов двух файлов для извлечения данных в R
Мне нужно получить данные только из тех столбцов INPUT, которые присутствуют в DF dataframe и записывают их в другой файл CSV, скажем, OUTPUT.
Короче говоря,
INPUT.csv:
ID,Col_A,Col_B,Col_C,Col_D,Col_E,Col_F,,,,,,,,,,,,,Col_S,,,,,,,,,,,,,,,,Col_Z
1,009,abcd,67,xvz,33,50,,,,,,,,,,,,,,,,,,,,,,,,,,,,oup,,,,,,,,,,,,,,,,,,90
2,007,efgh,87,wuy,56,67,,,,,,,,,,,,,,,,,,,,,,,,,,,,ghj,,,,,,,,,,,,,,,,,,,,888
печати (DF):
[1] "Col_D" "Col_Z"
[3] "Col_F" "Col_S"
output.csv
ID,Col_D,Col_Z,Col_F,Col_S
1,xvz,90,50,oup
2,wuy,888,67,ghj
Я новичок, когда это относится к Р. Я бы предпочел для сопоставления da taframe с файлом INPUT, который будет автоматизирован, потому что я не хочу делать это каждый день, когда обновляется dataframe.
прочитайте сначала 'input.csv' полностью, а затем подмножество –
' input <- read.table (...); input [colnames (input)% in% DF] 'предполагается, что DF - это вектор с именами столбцов –
' fread' - это все, что вам нужно ... 'data.table :: fread (" INPUT.csv ", select = c (" ID ", DF))' –