Извлечение некоторых значений тега HTML в Python

Как получить значение вложенного HTML-тега HTML в Python с использованием регулярных выражений?Извлечение некоторых значений тега HTML в Python

<a href="/model.xml?hid=90971&amp;modelid=4636873&amp;show-uid=678650012772883921" class="b-offers__name"><b>LG</b> X110</a> 

# => LG X110

источник

2010-06-23 akrisanov

Ваш вопрос был очень трудным для понимания, но из данного выходного примера похоже, что вы хотите удалить все из < и > из текста ввода. Это может быть сделано следующим образом:

import re 
input_text = '<a bob>i <b>c</b></a>' 
output_text = re.sub('<[^>]*>', '', input_text) 
print output_text

Что дает вам:

i c

Если это не то, что вы хотите, пожалуйста, уточнить.

Обратите внимание, что подход к регулярному выражению для синтаксического анализа XML очень хрупкий. Например, приведенный выше пример разбился бы на вход <a name="b>c">hey</a>. (> - действительный символ в значении атрибута: see XML specs)

источник

2010-06-23 10:49:28 Deestan

У вас нет.

Регулярные выражения не подходят для работы с вложенной структурой HTML. Вместо этого используйте HTML parser.

источник

2010-06-23 10:44:36 Jens

Попробуйте это ...

<a.*<b>(.*)</b>(.*)</a>

$ 1 и $ 2 должно быть то, что вы хотите, или что-то означает, Python имеет для печати захваченных групп.

источник

2010-06-23 10:48:29

Python, а не PHP ... – msanders

+1 для ответа Йенса. lxml - хорошая библиотека, которую вы можете использовать для эффективного анализа этого. Если вы предпочитаете что-то в стандартной библиотеке, вы можете использовать sax, dom или elementree.

источник

2010-06-23 10:54:13

Не используйте регулярные выражения для синтаксического разбора HTML. Используйте парсер HTML, например BeautifulSoup. Просто посмотрите, насколько это просто:

from BeautifulSoup import BeautifulSoup 
html = r'<a href="removed because it was too long"><b>LG</b> X110</a>' 
soup = BeautifulSoup(html) 
print ''.join(soup.findAll(text=True)) 
# LG X110

источник

2010-06-23 10:59:43 DzinX

Извлечение некоторых значений тега HTML в Python

ответ

Смежные вопросы