Как и smirnov, это регулярное выражение, которое вы используете, найдет только латинские строки. Для арабского языка вы должны использовать [\u0600-\u06ff]|[\u0750-\u077f]|[\ufb50-\ufbc1]|[\ufbd3-\ufd3f]|[\ufd50-\ufd8f]|[\ufd92-\ufdc7]|[\ufe70-\ufefc]|[\uFDF0-\uFDFD]
(который должен найти все арабские символы, даже такие странные, как .)
В зависимости от того, что вы пытаетесь сделать, вы можете разбить строку на список и обработать ее таким образом (это то, что я обычно делаю, когда имею дело со текстами на смешанном языке). Затем вы можете определить язык каждого слова и обработать его соответствующим образом.
Можете ли вы представить пример совпадений по арабскому предложению? Я не знаю о пространствах в арабском, но если вам нужно только разграничивать слова, возможно, вы можете использовать регулярный '.split ('')'? – antoni
Арабские пространства такие же, как и английские. Но я должен использовать регулярное выражение вместо .split ('') .. @antoni –
{1,} можно заменить на +. – Simon