Regex for absolute url

Я ищу довольно долгое время для регулярного выражения, совместимого с модулем re Python для поиска всех URL-адресов в документе HTML, и я не могу найти его, кроме одного, который мог только проверить, является ли URL-адрес действительным или недействительным (с match способ). Я хочу сделать простойRegex for absolute url

import requests 
html_response = requests.get('http://example.com').text 
urls = url_pattern.findall(html_response)

Я полагаю, необходимое регулярное выражение (если существует) будет достаточно сложным, чтобы принять во внимание кучу специальных случаев URLs, поэтому он не может быть какой-то oneline код.

источник

2015-10-09 Yuras

Не следует использовать регулярное выражение для разбора HTML. Вместо этого используйте [BeautifulSoup] (http://www.crummy.com/software/BeautifulSoup/bs4/doc/) (или [html-парсер в стандартной библиотеке] (https://docs.python.org/3/library /html.parser.html)) –

Используйте BeautifulSoup вместо. Он прост в использовании и позволяет анализировать страницы с помощью HTML.

Смотрите этот ответ How to extract URLs from an HTML page in Python

источник

2015-10-09 21:15:38

Regex for absolute url

ответ

Смежные вопросы