2016-08-10 2 views
0

В нижнем коде, что означает каждый элемент символьной строки re.sub('<[^>]*>|[\n]|\[[0-9]*\]', '', htmlread)?Python web scraping, символы значения

import urllib2 
import re 

htmltext = urllib2.urlopen("https://en.wikipedia.org/wiki/Linkin_Park") 
htmlread = htmltext.read() 
htmlread = re.sub('<[^>]*>|[\n]|\[[0-9]*\]', '', htmlread) 
regex = '(?<=Linkin Park was founded)(.*)(?=the following year.)' 
pattern = re.compile(regex) 
htmlread = re.findall(pattern, htmlread) 
print "Linkin Park was founded" + htmlread[0] + "the following year." 
+1

http://stackoverflow.com/questions/22937618/ ссылка-что-делает-это-регулярное выражение, среднее –

ответ

0

Линия htmlread = re.sub('<[^>]*>|[\n]|\[[0-9]*\]', '', htmlread) удаляет либо

  • выражение между <> ИЛИ
  • символ новой строки
  • число между скобками или пустые скобки

от htmlread

интересная вика пост здесь: Reference - What does this regex mean?

0

Заменить каждый символ «», это означает, что удалить его из htmlread переменной

Пожалуйста, прочитайте больше о RegEx