2016-09-15 3 views
1

У меня есть рабочее регулярное выражение для извлечения нескольких данных. Код РНР на следующие:Regex с несколькими группами захвата

<?php 

$re = "/(\\d{2}.\\d{2}.\\d{2}).+(\\w{3}).+\\w{3}.+(\\w{2}\\s\\d{4}).+(\\d{2}:\\d{2}\\n).+(\\d{2}.\\d{2}.\\d{2}).+(\\w{2}\\s\\d{4}).+(\\d{2}:\\d{2}\\n).+((FNC|PXO)\\d{3})/"; 
$str = "***NEUBUCHUNG ***\n 24.01.15 TXL FNC AB 2306 11:40 15:20\n 31.01.15 FNC TXL AB 2307 16:05\n FNC044 RESIDENCIAL VILA LUSITANI 9000-120 FUNCHAL\n 1 DOPPELZIMMER      FRUEHSTUECK\n SPO1101\n INKL. REISELEITUNG UND TRANSFER AB/BIS\n FLUGHAFEN\n F368966 HERR EIDAM, KLAUS    54\n F368966 FRAU EIDAM, SONJA    54"; 

$str2 = "***ÄNDERUNG ***\nNEU:11.04.15 DUS AB 2646 13:15 16:25\n 18.04.15 FNC DUS AB 2647 17:15\n FNC027 PESTANA CARLTON MADEIRA 9004-531 FUNCHAL\n 1 DO-MEERBLICK      F\nF365474 HERR PETERS, HANS        O 03.01.15\nLANGZEITERMÄSSIGUNG 10%\nSPO-JAN_SALES 20%\nFRÜHBUCHER 10%\nINKL. REISELEITUNG UND TRANSFER AB/BIS\nFLUGHAFEN\nZimmer in ruhiger Lage\n(unverbindlicher Kundenwunsch)\nNEU:\nF365474 FRAU PETERS, ULRIKE        O 03.01.15"; 

preg_match($re, $str, $matches); 
print_r($matches) 
?> 

https://ideone.com/UdIaA7

Regex с ул: https://regex101.com/r/rF0uP7/5

Regex с str2: https://regex101.com/r/cV6iF9/1

Однако она прекрасно работает на ул он не соответствует в str2, и я не могу найти причину, почему

ответ

1

.+(\w{3}) в начале должен быть необязательным. Оберните его (?:.+(\w{3}))?.

См regex demo

Кроме того, у вас есть слишком много .+, в большинстве мест, вы имели в виду только соответствовать пробельные, и, таким образом, лучше превратились в \s+. Кроме того, точки, предназначенные для соответствия буквальным точкам, должны быть экранированы.

Используйте более оптимизировано:

(\d{2}\.\d{2}\.\d{2})(?:\s+(\w{3}))?\s+\w{3}\s+(\w{2}\s\d{4}).+(\d{2}:\d{2}\n)\s+(\d{2}\.\d{2}\.\d{2}).+(\w{2}\s\d{4})\s+(\d{2}:\d{2}\n).+((FNC|PXO)\d{3}) 

Смотрите эту regex demo

+1

Примечание Вы не должны использовать любые модификаторы с шаблоном регулярного выражения в PHP (возможно, '/ u', если вы имеете дело с текстами UTF). Просто 'preg_match_all ('~ (\ d {2} \. \ D {2} \. \ D {2}) (?: \ S + (\ w {3}))? \ S + \ w {3} \ s + (\ ш {2} \ s \ d {4}) +. (\ d {2}: \ д {2} \ п) \ s + (\ d {2} \ \ д {2} \ \ д.. {2}) + (\ ш {2} \ s \ d {4}) \ s + (\ d {2}:. \ д {2} \ п) + ((FNC | PXO). \ д {3}) ~ u ', $ str, $ matches) '. –

+0

Вы мастер Wiktor! Благодаря :) – Mary

2

Тем не менее он прекрасно работает на ул он не совпадает в str2, и я не могу найти причину, почему

Вот Виновником Expression: (\\w{3}).+\\w{3}

И в $ ул Вы были 24.01.15 TXL FNC AB

Но в $ str2, вы имели: 11.04.15 DUS AB

Ваш Regex мог читать лучше выглядеть примерно так:

$re = "#(\d{2}\.\d{2}\.\d{2})(?:\s+(\w{3}))?\s+\w{3}\s+(\w{2}\s\d{4}).+(\d{2}:\d{2}\n)\s+(\d{2}\.\d{2}\.\d{2}).+(\w{2}\s\d{4})\s+(\d{2}:\d{2}\n).+((FNC|PXO)\d{3})#si"; 

Quick-Test.

Смежные вопросы