Я искал этот форум для близкого совпадения с моей проблемой, но не смог найти подходящее решение, поэтому отправляю запрос.Python regex: Fetch next line after string match
Использование модулей urllib и re для извлечения определенных разделов веб-страницы. Представляет интерес также статус, связанный с этими разделами.
Например, глядя на источник страницы:
MY-TEXT # 1410 закончил подзадачи ГОТОВИШЬ-WORKSPACE # 340418: https://cloud6.foo.bar.com/b/job/ ГОТОВИТЬ-WORKSPACE/340418
«> УСПЕХ
Am использованием re.compile и re.findall для извлечения текста приходит после того, как этот шаблон "https://cloud6.foo"; это соответствует всему тексту и, используя этот список, я подтвердил, что это так; но я теряю статус этой конкретной задачи, потому что она находится в строке сразу после строки «https: //».
Как извлечь одну строку после согласованной строки в текущем сценарии?
Фрагмент кода здесь:
from urllib import urlopen
import re
webpage = urlopen(urllink).read()
buildPhases = re.compile(r'\<a href=\W{1}https\W{3}(.*)')
phaseLists = re.findall(buildPhases, webpage)
for item in phaseLists:
print item
Если вы разбираете HTML, * использовать HTML-парсер * – jonrsharpe
Для расширения jonrsharpes ком! , попробуйте BeautifulSoup. – durrrutti
Как указано в комментариях выше, используйте html-парсер для выполнения этой работы (в противном случае [tony the pony приходит для вас] (http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml- автономные теги) .Если вы отредактируете вопрос, содержащий html-код (или ссылку), с которым имеете дело, мы можем предоставить соответствующее решение (BeautifulSoup или lxml). –