Я пытаюсь разделить (с preg_split) текст с большим количеством иностранных символов и цифр на слова и цифры с длиной> = 2 и без знака. Теперь у меня есть этот код, но он только разбивается на слова без учета цифр и длины> = 2 для всех. Как я могу сделать?Разделить текст на слова и цифры с поддержкой unicode (preg_split)
$text = 'abc 文 字化け, efg Yukarda mavi gök, asağıda yağız yer yaratıldıkta; (1998 m. siejės 7 d.). Ton pate dėina bandomkojė бойынша бірінші орында тұр (79.65 %), айына 41';
$splitted = preg_split('#\P{L}+#u', $text, -1, PREG_SPLIT_DELIM_CAPTURE | PREG_SPLIT_NO_EMPTY);
Ожидаемый результат должен быть: array('abc', '字化け', 'efg', 'Yukarda', 'mavi', 'gök', 'asağıda', 'yağız', 'yer', 'yaratıldıkta', '1998', 'siejės', 'Ton', 'pate', 'dėina', 'bandomkojė', 'бойынша', 'бірінші', 'орында', 'тұр', '79.65', 'айына', '41');
NB: уже пробовали эти документы link1 & link2, но я не могу получить его работы: -/
Каков фактический результат, который вы получаете? –
На данный момент в результате это: Массив ( [0] => ABC [1] => 文 [2] => 字 化 け [3] => EFG [4] => Yukarda [5] = > Mavi [6] => Gök [7] => asağıda [8] => yagız [9] => Ер [10] => yaratıldıkta [11] => т [12] => siejės [13] => д [14] => Тон [15] => паштет [16] => dėina [17] => bandomkojė [18] => бойынша [19] => бірінші [20] => орында [21] => тұр [22] => айына ) – Albertine
ли вы имеете в виду, что вы _don't_ хотите, чтобы соответствовать на любое слово, которое содержит знаки препинания (т.е. '79 .65 'не соответствует) или вы хотите, чтобы он соответствовал «79» и «65»? – Danack