2017-01-10 3 views
2

У меня есть ряд документов, где мне нужно, чтобы разбить текст на куски, документы содержат текст, где прописные слова должны быть разбиты на разделыРегулярное выражение для заглавных слов

LORUM ipsum dolor sit amet, consectetur adipiscing elit, SED DO eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum. Sed ut perspiciatis unde omnis iste natus error sit voluptatem accusantium doloremque laudantium, TOTAM REP aperiam, eaque ipsa quae ab illo inventore veritatis et quasi architecto beatae vitae dicta sunt explicabo. Nemo enim ipsam voluptatem quia voluptas sit aspernatur aut odit aut fugit, sed quia consequuntur magni dolores eos qui ratione voluptatem sequi nesciunt. NEQUE porro quisquam est, qui dolorem ipsum quia dolor sit amet, consectetur, adipisci velit, sed quia non numquam eius modi tempora incidunt ut labore et dolore magnam aliquam quaerat voluptatem. UT ENIM AD minima veniam, quis nostrum exercitationem ullam corporis suscipit laboriosam, nisi ut aliquid ex ea commodi consequatur? Quis autem vel eum iure reprehenderit qui in ea voluptate velit esse quam nihil molestiae consequatur, vel illum qui dolorem eum fugiat quo voluptas nulla pariatur? 

стал бы

LORUM ipsum dolor sit amet, consectetur adipiscing elit, 

SED DO eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum. Sed ut perspiciatis unde omnis iste natus error sit voluptatem accusantium doloremque laudantium, 

TOTAM REP aperiam, eaque ipsa quae ab illo inventore veritatis et quasi architecto beatae vitae dicta sunt explicabo. Nemo enim ipsam voluptatem quia voluptas sit aspernatur aut odit aut fugit, sed quia consequuntur magni dolores eos qui ratione voluptatem sequi nesciunt. NEQUE porro quisquam est, qui dolorem ipsum quia dolor sit amet, consectetur, adipisci velit, sed quia non numquam eius modi tempora incidunt ut labore et dolore magnam aliquam quaerat voluptatem. 

UT ENIM AD minima veniam, quis nostrum exercitationem ullam corporis suscipit laboriosam, nisi ut aliquid ex ea commodi consequatur? Quis autem vel eum iure reprehenderit qui in ea voluptate velit esse quam nihil molestiae consequatur, vel illum qui dolorem eum fugiat quo voluptas nulla pariatur? 

Я попытался найти \b[A-Z](.*?)+\b, который возвращает слова верхнего регистра, и я пробовал \b[A-Z](.*?)+\b(.*?)\b[A-Z](.*?)+\b, который подходит для нескольких документов, но не работает на других, включая пример Lorem Ipsum.

+0

Адрес: https://regex101.com/r/A1X6rG/1 Что вы ищете? Похоже, вы не хотите ломать «Ут», верно? – chris85

+0

Спасибо, что помогли '\ b [A-Z] {3,} \ b (.?) \ B [A-Z] {3,} \ b' получил заголовки, я могу обойти это, чтобы получить содержимое. Спасибо. – user2075215

+1

Почему 'NEQUE porro ...' часть 'TOTAM REP ...'? Проверьте мой подход: ['\ b [AZ] + (?: \ S + [AZ] +) * (?: (?! [AZ] {2}).) *'] (Https://regex101.com/ г/1Py4w2/1). Если слова ALLCAPS должны иметь как минимум 2 символа, используйте '\ b [AZ] {2,} (?: \ S + [AZ] {2,}) * (?: (?! [AZ] {2}).) * ' –

ответ

2

Соответствующий подход здесь состоит в соответствии последовательных разделенных пробелов ALLCAPS слова, а затем соответствии любого символа, не начиная последовательность 2 заглавных букв:

\b[A-Z]+(?:\s+[A-Z]+)*(?:(?![A-Z]{2}).)* 

Смотрите regex demo

, если Слова ALLCAPS должны состоять как минимум из двух букв, используйте предельные кванторы вместо +:

\b[A-Z]{2,}(?:\s+[A-Z]{2,})*(?:(?![A-Z]{2}).)* 
     ^^^   ^^^^ 
Подробнее

Pattern:

  • \b - ведущий слово краевая
  • [A-Z]+ - 1 или более заглавная ASCII буквы
  • (?:\s+[A-Z]+)* - ноль или более последовательности:
    • \s+ - 1+ пробелы
    • [A-Z]+ - 1+ прописные буквы ASCII
  • (?:(?![A-Z]{2}).)* - умеренный жадный токен, соответствующий любому символу, который не запускает последовательность из двух букв ASCII в верхнем регистре.
+1

Ну, черт побери, ладно! :-) – AbraCadaver

0

Это регулярное выражение должно работать: [A-Z]\w+ выбирает все слова \w+, которые прописные [A-Z]

1

preg_split() получит часть пути:

$result = preg_split('/([A-Z][A-Z ]+)/', 
        $string, 
        null, 
        PREG_SPLIT_NO_EMPTY | PREG_SPLIT_DELIM_CAPTURE); 
  • Split на заглавной буквы, затем более заглавными буквами буквы или пробелы [A-Z][A-Z ]+
  • Захват матча (), а также PREG_SPLIT_DELIM_CAPTURE

Тогда, если кто-то есть лучший путь внутри preg_split():

$result = array_map(function($v) { 
         return implode(' ', $v); 
        }, 
        array_chunk($result, 2)); 
  • Кусок массив в пары прописной матч и то, что приходит после
  • Implode пары

Затем, если вы хотите вернуться к строке с символами перевода строки:

$result = implode("\n", $result); 
0

Попробуйте искать это регулярное выражение: (\s)(([A-Z]+\s\b)+)

и заменить это: \n\2 или это: \n\n\2 для две линии между ними.

Смежные вопросы