2009-10-13 7 views
0

я текст с HTML-артефактами, где < и > тегов были понижены, так что теперь мне нужно что-то, что будет соответствовать небольшой p сопровождаемый заглавной буквы, какРегулярное выражение для HTML артефактов

pThe next day they.... 

И Мне также нужно что-то, что позволит поймать конечный /p, который проще. Они должны быть удалены, то есть заменены на "" в python.

Какой RE я буду использовать для этого? Благодаря! Стефан.

ответ

1

Попробуйте это:

re.sub(r"(/?p)(?=[A-Z]|$)", r"<\1>", str) 

Вы можете расширить граничное утверждение (здесь (?=[A-Z]|$)) с дополнительными символами, как пробел.

1

У меня есть есть. Вы можете использовать обратные ссылки,

import re 
smallBig = re.compile(r'[a-z]([A-Z])') 

... 
cleanedString = smallBig.sub(r'\1', dirtyString) 

Это снимает небольшое письмо, но сохраняет заглавную букву в тех случаях, когда были зачищенных участков «<» и «>» из HTML-теги и вы сидите с текстом, как

pSome новый пункт текст/p

Быстро и грязно, но это работает в моем случае.