Я пытаюсь справиться с регулярным выражением в Python. Я пишу очень простой скрипт для очистки писем от заданного URL.Python, форматирование re.findall() output
import re
from urllib.request import *
url = input("Please insert the URL you wish to scrape> ")
page = urlopen(url)
content = page.read()
email_string = b'[a-z0-9_. A-Z]*@[a-z0-9_. A-Z]*.[a-zA-Z]'
emails_in_page = re.findall(email_string, content)
print("Here are the emails found: ")
for email in emails_in_page:
print(email)
re.findall() возвращает список, и когда программа печатает электронные письма, «B» из строки регулярного выражения включается в выходном, как это:
b'[email protected]'
b'[email protected]'
...
Как могу ли я распечатать чистый список писем? (т. е. [email protected]
)
Почему вы отклонять '+' знаки в локальной части? – glglgl