Python web scraping, символы значения

В нижнем коде, что означает каждый элемент символьной строки re.sub('<[^>]*>|[\n]|\[[0-9]*\]', '', htmlread)?Python web scraping, символы значения

import urllib2 
import re 

htmltext = urllib2.urlopen("https://en.wikipedia.org/wiki/Linkin_Park") 
htmlread = htmltext.read() 
htmlread = re.sub('<[^>]*>|[\n]|\[[0-9]*\]', '', htmlread) 
regex = '(?<=Linkin Park was founded)(.*)(?=the following year.)' 
pattern = re.compile(regex) 
htmlread = re.findall(pattern, htmlread) 
print "Linkin Park was founded" + htmlread[0] + "the following year."

источник

2016-08-10 Kernel2710

http://stackoverflow.com/questions/22937618/ ссылка-что-делает-это-регулярное выражение, среднее –

Линия htmlread = re.sub('<[^>]*>|[\n]|\[[0-9]*\]', '', htmlread) удаляет либо

выражение между <> ИЛИ
символ новой строки
число между скобками или пустые скобки

от htmlread

интересная вика пост здесь: Reference - What does this regex mean?

источник

2016-08-10 14:55:25

Заменить каждый символ «», это означает, что удалить его из htmlread переменной

Пожалуйста, прочитайте больше о RegEx

источник

2016-08-10 14:55:26

Python web scraping, символы значения

ответ

Смежные вопросы