У меня есть несколько статей, посвященных террористическим атакам. Из этих статей я хотел бы выделить конкретный пункт.Извлечение абзаца из статей | Регулярное выражение
Это образец статей Царапины:
By DAVID D. KIRKPATRICK MARCH 18, 2015
Scenes from Tunisian state television showed confusion outside an art museum and Parliament on Wednesday after gunmen attacked.
CAIRO — Gunmen in military uniforms killed 19 people on Wednesday in a
midday attack on a museum in downtown Tunis, dealing a new blow to the tourist industry
that is vital to Tunisia as it struggles to consolidate the only transition to democracy
after the Arab Spring revolts.
Tunisian officials had initially said that the attackers took 10
hostages and killed nine people, including seven foreign visitors and two Tunisians.
То, что я хочу, чтобы извлечь для дальнейшего анализа, является текст, который идет, в данном примере, из: «КАИР -» к первому fullstop.
This is the regular expression, что я придумал:
([A-Z]+(?:\W+\w+)?)\s*—[\s\S]+\.\s
С помощью этого регулярного выражения я извлечь только начальную точку пункта, но я не извлекаю остальное.
Является ли регулярное выражение более или менее, чем вы хотите? (мое подозрение в том, что он слишком много извлекает, потому что вы не использовали ленивый [квантификатор] (http://www.regular-expressions.info/repeat.html)). –
Вы правы. Я пытаюсь выдать только первый абзац, начинающийся после заглавного слова и знака. Когда я применяю его к целому набору данных, я извлекаю слишком много. –
. Это сбивает с толку - вы указываете «до первого полного перерыва». и это то, что вы получаете. Чего ты действительно хочешь? – ClasG