Есть ли (простая) возможность идентифицировать общий шаблон, который разделяют две строки? Вот небольшой пример, чтобы понять, что я имею в виду:Определить общий шаблон
У меня есть две переменные, содержащие строку. Оба включают один и тот же шаблон («ABC»), а также некоторый «шум».
a <- "xxxxxxxxxxxABCxxxxxxxxxxxx"
b <- "yyyyyyyyyyyyyyyyyyyyyyyABC"
Позволяет сказать, что я не знаю, общий шаблон, и я хочу, R, чтобы выяснить, что обе строки содержат «ABC». Как я могу это сделать?
* редактировать
Первый пример был, возможно, немного к упрощенным. Вот пример из моих реальных данных.
a <- "DUISBURG-HAMBORNS"
b <- "DUISBURG (-31.7.29)S"
Обе строки содержат «DUISBURG», которые я хочу, чтобы функция идентифицировала.
* редактировать
Я принял решение, предложенное в ссылке, публикуемую в комментариях. Но я все еще не совсем то, что хочу.
library(qualV)
LCS(strsplit(a[1], '')[[1]],strsplit(b[1], '')[[1]])$LCS
[1] "D" "U" "I" "S" "B" "U" "R" "G" "-" " " " " "S"
Если функция ищет наибольшую общую подпоследовательность два векторов, почему она не остановится после "D" "U" "I" "S" "B" "U" "R" "G"
? ,
Мы должны знать больше о возможных общих паттернах и этом «шуме». Например, «abc» и «cda» дают 2 общих шаблона «a» и «c»? – Julius
Хорошо, есть точка. Мне нужны шаблоны с 3 или 4 элементами. – Alex
http://stackoverflow.com/questions/16196327/find-common-substrings-between-two-character-variables –