после того, как долго борющийся мне удалось получить один вход длинная строка обрабатывается в следующем виде - один список:питона - извлечение тегов и атрибутов из HTML - жесткий путь
['<', 'p', '>', '<', 'a', 'href', '>', '<', 'a', '>', '<', 'p', '>', '<', 'div', 'class', '>', '<', 'a', 'href', '>', '<', 'a', '>', '<', 'div', '>']
как я могу в настоящее время эффективно и в процессе жесткого кодирования, который, кроме того, содержит каждый тег HTML и атрибут, который он охватывает?
так что после этого я подтвердит, что р не имеет каких-либо атрибутов, а имеет HREF и DIV имеет класс приписывать?
Почему бы не использовать, например. 'BeautifulSoup' в первую очередь? – Jan
Мне любопытно. Зачем вам это нужно? – Vorticity
http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags? Возможно, используйте парсер вместо того, чтобы пытаться вручную деконструировать html? –