2013-07-25 5 views
0

Можете ли вы помочь мне найти правильное регулярное выражение для извлечения (Margaux или Saint-Julien) в каждый момент времени этого 2 страниц:найти подходящий регулярное выражение

в page 1: Margaux, Rouge

в page 2: 2ème Vin, Saint-Julien, Rouge

мой код:

item ["appelation"] = res.select('.//div[@class="pro_col_right"]/div[@class="pro_blk_trans"]/div[@class="pro_blk_trans_titre"]/text()').re(r'\s*\w+\-\w+\-\w+|\w+\-\w+|\[^Rouge,Blanc]') 

Мое регулярное выражение не могло найти Марго, но оно извлекает Сен-Жюльена !!

+0

Какой смысл использовать регулярное выражение для извлечения кое-что точная форма которые вы уже знаете? – dkar

ответ

0

Не знаю, почему вам это нужно, но предположим s ваш HTML-файл, то это регулярное выражение будет найти то, что вы ищите ..

import re 
m = re.search(r"\<div\ class=\"pro_blk_trans_titre\"\>(.*)\</div\>", s) 
print(m.group(1).strip().encode("utf8")) 

# page1: b'Margaux, Rouge' 
# page2: b'2\xc3\xa8me Vin, Saint-Julien, Rouge' 
+0

thx @joente, я хочу автоматизировать извлечение ** аппликации ** выигрыша по этой ссылке [link] (http://www.nicolas.com/fr/commander_bordeaux.html), пройдя каждую бутылку вина. проблема в том, что структура страниц вина не похожа (поиск ссылок на страницы Page1 и стр. 2), поэтому я хочу использовать регулярное выражение, которое могло бы найти ** аппликацию ** независимо от структуры моей веб-страницы – xeroxSO

Смежные вопросы