RegEx: Матч до указанного слова

Я не хочу, чтобы соответствовать следующие предложения:RegEx: Матч до указанного слова

<b>(ABC)</b> 
<b> (ABC) </b> 
<b> abc (ABC) fgt </b>

шаблон выглядит следующим образом:

"(<b>.*?\()([A-Z]+)(\).*?</b>)"

Это прекрасно работает для примеров выше, но если предложение является следующее:

<b></b>(ABCA)<b>(ABCB)</b>

Затем я ошибаюсь. Regex находит первое появление  и показывается до первого (. Затем он пропускает все слова до . Это неверно. Правильное совпадение должно быть (ABCB). Как это исправить?

источник

2014-10-01 Eldar Agalarov

, что было бы ожидать выход для указанной выше строки? –

Если вы хотите, чтобы регулярное выражение не пересекало границы тегов, маркер «match anything» .* слишком свободен, потому что «все» также охватывает теги.

Вы можете использовать negative lookahead assertion, чтобы убедиться, что  и  не может быть частью матча:

(<b>(?:(?!</?b>).)*\()([A-Z]+)(\)(?:(?!</?b>).)*</b>)

Попробуй live on regex101.com.

Объяснение:

(  # Match into group 1: 
<b>  # <b> 
(?:  # Start of non-capturing group 
    (?!  # Match only if it's impossible to match 
    </?b> # <b> or </b> 
)  # (End of lookahead assertion) 
    .  # Match any character 
)*  # Repeat as many times as possible 
\(  # Then match a (
)   # End of group 1 
([A-Z]+) # Match one or more uppercase ASCII letters --> group 2 
(  # Match into group 3: 
\)  # Match) 
(?:(?!</?b>).)* # as before, match anything except <b> or </b> 
</b>  # Match </b> 
)   # End of group 3

источник

2014-10-01 10:20:32

Заменить .*? с [^<>]* в своем регулярном выражении, так что он будет соответствовать любому символу, но не < или > ноля или более раз. Это гарантирует отсутствие метки, находящейся между открытием и закрытием тегов .

(<b>[^<>]*?\()([A-Z]+)(\)[^<>]*?</b>)

DEMO

источник

2014-10-01 10:24:45

+1, хотя, конечно, это предотвращает появление каких-либо * тегов от '' и '', что должно быть достаточно, если не произойдет что-то вроде' (ABCD). Думаю, вам не нужно хранить ленивые кванторы. –

Да, если вход содержит ' (ABCD)', то мой не будет работать. –

RegEx: Матч до указанного слова

ответ

Смежные вопросы