Я пытался выяснить, как очистить и отредактировать столбец в моем наборе данных.Очистка и редактирование столбца
Набор данных, который я использую, предназначен только для города Сан-Франциско. Столбец в наборе данных, называемый «город», содержит несколько разных написаний Сан-Франциско, а также других городов. Вот как это выглядит:
таблицы (город SF $)
Brentwood CA
30401 18 370
DALY CITY FOSTER CITY HAYWARD
0 0 0
Novato Oakland OAKLAND
0 40 0
S F S.F. s.F. Ca
0 31428 12
SAN BRUNO SAN FRANCICSO San Franciisco
0 221 54
san francisco san Francisco San francisco
20 284 0
San Francisco SAN FRANCISCO san Francisco CA
78050 16603 6
San Francisco, San Francisco, Ca San Francisco, CA
12 4 72
San Francisco, CA 94132 San Franciscvo San Francsico
0 0 2
San Franicisco Sand Francisco sf
41 30 17
Sf SF SF , CA
214 81226 1
SF CA 94133 SF, CA SF, CA 94110
0 9 38
SF, CA 94115 SF. SF`
4 1656 31
SO. SAN FRANCISCO SO.S.F.
0 6
То, что я пытаюсь сделать, это изменить город С.Ф. $ только у «Сан-Франциско». Таким образом, все данные в sf $ city будут размещены под одним городом, Сан-Франциско. Поэтому, когда я набираю таблицу (sf $ city), она показывает только Сан-Франциско.
Могу ли я подмножество? Что-то вроде:
sf$city = subset(sf, city == "S.F." & "s.F. Ca" & "SAN FRANCICSO" & ...
И подмножество всех переменных города, которые я хочу? Или это исказит и испортит мои данные?
Непонятно, что вы спрашиваете, но если вы хотите переписать 'sf $ city' как« Сан-Франциско »для каждой записи, вот метод:' sf $ city <- «San Francisco» '. – lmo
Ahh ok, достаточно просто. Но как я могу изменить его, чтобы он не включал города Окленд и не SF? –
См. Мой ответ. Я думаю, что это сработает для вас, хотя ответ jota замечателен, если вы хотите развить свои навыки манипуляции строками. Обучение регулярным выражениям стоит того, если вы регулярно выполняете или будете регулярно чинить данные. – lmo