Если у вас есть следующий текст:матч любого не-буквенный символ (за исключением диакритических)
Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam Lorem! nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At Lorem, vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet.
И вы хотите, чтобы соответствовать любой «Lorem» ключевое слово с тем ограничением, что она не должна быть подстрока слова , Поэтому я проверяю, если он заканчивается/начинается с пробела или, если это конец/начало строки с:
/(^|\s)(lorem)(?=\s|$)/gmi
Это прекрасно работает. Тем не менее, я хочу расширить эту функциональность, чтобы найти также совпадения, которые заканчиваются любым специальным символом, например ,
или %
(не ограничиваясь ими), а не просто пробелами. Проблема, с которой я сталкиваюсь, заключается в том, что, похоже, нет класса символов, который бы соответствовал любым специальным символам, и я не могу использовать \w
или \W
, поскольку они также соответствовали бы диакритике как символ без слова (даже если это слово персонажи).
Так что я спрашиваю себя, как достичь этого !? Есть ли способ указать диапазон для любого неглавного символа, который не будет включать диакритические символы?
Обратите внимание, что я не могу использовать плагин расширения RegExp, чтобы разрешить поиск с поддержкой юникода.
Пример моей ситуации: Demo.
Выполняет ли '\ blorem \ b' ваши потребности? –
Нет, поскольку он несовместим с диакритикой. См. Эту тему: http://stackoverflow.com/questions/2881445/utf-8-word-boundary-regex-in-javascript – user3292653
@ user3292653 Пожалуйста, дайте нам список того, что вы считаете «специальными символами». Например, будут ли '-' или' · 'или' .' или '_' быть символом слова или символом, отличным от слова? – Laurel