2015-10-09 6 views
1

Я ищу довольно долгое время для регулярного выражения, совместимого с модулем re Python для поиска всех URL-адресов в документе HTML, и я не могу найти его, кроме одного, который мог только проверить, является ли URL-адрес действительным или недействительным (с match способ). Я хочу сделать простойRegex for absolute url

import requests 
html_response = requests.get('http://example.com').text 
urls = url_pattern.findall(html_response) 

Я полагаю, необходимое регулярное выражение (если существует) будет достаточно сложным, чтобы принять во внимание кучу специальных случаев URLs, поэтому он не может быть какой-то oneline код.

+2

Не следует использовать регулярное выражение для разбора HTML. Вместо этого используйте [BeautifulSoup] (http://www.crummy.com/software/BeautifulSoup/bs4/doc/) (или [html-парсер в стандартной библиотеке] (https://docs.python.org/3/library /html.parser.html)) –

ответ