Я прочитал эту тему об извлечении url из строки. https://stackoverflow.com/a/840014/326905 Действительно хороший, я получил все URLо, из документа XML, содержащего http://www.blabla.com сИзвлечение URL-адреса в Python из XML
>>> s = '<link href="http://www.blabla.com/blah" />
<link href="http://www.blabla.com" />'
>>> re.findall(r'(https?://\S+)', s)
['http://www.blabla.com/blah"', 'http://www.blabla.com"']
Но я не могу понять, как настроить регулярное выражение опустить двойной qoute в конце URL.
Сначала я подумал, что это ключ
re.findall(r'(https?://\S+\")', s)
или это
re.findall(r'(https?://\S+\Z")', s)
, но это не так.
Может кто-нибудь помочь мне и рассказать мне, как опустить двойную цитату в конце?
КПП. вопросник после «s» https означает «s» может произойти или не может произойти. Я прав?
НИКОГДА никогда никогда никогда никогда разбора HTML с регулярным выражением http://www.codinghorror.com/blog/2009/11/parsing-html-the-cthulhu-way.html – That1Guy
Вы также должны прочитать нить [ RegEx сопоставляют открытые теги, кроме XHTML автономных тегов] (http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags) – Abhijit
Если вы используете парсер HTML, например BeautifulSoup, эта проблема станет проще, чем использование регулярных выражений. –