Этот вопрос задан несколько раз на SO, но я не мог получить ответы на правильные ответы. Мне нужно извлечь все URL-адреса на странице как в ссылках href, так и в обычном тексте. Мне не нужны отдельные группы регулярных выражений. Мне нужен список строк, т. Е. URL-адреса на странице. Может ли кто-нибудь указать мне на хороший рабочий пример?Regex извлечь все URL-адреса со страницы
Я хотел бы сделать это с помощью Regexs и не BeautifulSoup и т.д.
Спасибо.
+1, а просто примечание, потому что я думаю в этом случае OP не __parsing html__ он просто __searching__ в тексте для URL-адресов, и этот текст оказывается html. – mouad
@singularity - действительно; поэтому я потрудился дать реальный ответ после общего предупреждения против неправильного использования. :) –