Я пытаюсь соответствовать номера портов в <span>
тегов из HTML страницы:Матч номер порта
<span class="tbBottomLine" style="width:50px;">
8080
</span>
<span class = "tbBottomLine" style = "width: 50px;">
80
</ span>
<span class = "tbBottomLine" style = "width: 50px;">
3124
</ span>
<span class = "tbBottomLine" style = "width: 50px;">
1142
</ span>
Сценарий:
import urllib2
import re
h = urllib2.urlopen('http://www.proxy360.cn/Region/Brazil')
html = h.read()
parser_port = '<span.*>\s*([0-9]){2,}\s*</span>'
p = re.compile(parser_port)
list_port = p.findall(html)
print list_port
Но я получаю этот выход:
['8', '8', '0', '0', '0', '8', '8', '0', '0', '8', '8', '8', '8', '8', '8', '8', '8', '0']
И это необходимо для соответствия 8080
.
И что конечный результат вы ищете? Просто 8080? – LPChip
Мне нужны образцы регулярных выражений, которые ищут все образцы на –
Простите, вы все еще не имеете никакого смысла. Правильно ли я понимаю, что после выполнения регулярного выражения он просто найдет 8080, 80, 3124 и 1142, как в вашем примере? или он также должен содержать больше? – LPChip