Это зависит в значительной степени от языка (и двигателя регулярных выражений), который вы используете.
В Perl \w
соответствует всем символам слов, независимо от языка или алфавита, и что-то вроде /\b(\w+)\b/
будет (возможно) соответствовать испанским словам, а также английским словам или русским словам.
В языках, использующих PCRE, \w
(и, следовательно, возможно, \b
) НЕ соответствуют символам Unicode. Вам, вероятно, понадобится создать свой собственный набор. Я предлагаю что-то вроде [\wáéíóúñ]
(соответствует всем символам слов, а также выделенным символам), а библиотека PCRE должна быть предварительно построена с поддержкой Unicode, прежде чем это будет работать.
Если вы используете что-то еще, удачи. Некоторые двигатели регулярных выражений даже не поддерживают Unicode.