Как удалить HTML комментарии с помощью Regex в Python

<h1>heading</h1> <!-- comment-with-hyphen --> some text <-- con --> more text <hello></hello> more text

должно привести:

<h1>heading</h1> some text <-- con --> more text <hello></hello> more text

источник

2015-01-29 Rushabh Mehta

Использование регулярных выражений на ограниченном, известном наборе HTML может быть уместным. Тем не менее, вы должны знать, что есть бесчисленные случаи, когда он сломается, и, как правило, не рекомендуется. – grc

Связанные: http://stackoverflow.com/a/1732454/3001761 – jonrsharpe

Почему downvotes на вопрос? Если вы работаете над «известным набором HTML», это был законный вопрос. –

Наконец придумал этот вариант:

re.sub("()", "", t)

Добавление ? делает поиск не- жадный и не объединяет несколько тегов комментариев.

источник

2015-01-29 06:22:04

Вы могли бы попробовать это регулярное выражение <![^<]*>

источник

2015-01-29 06:36:26 dragon2fly

Ваше регулярное выражение слишком много соответствует - обратите внимание, что вопрос имеет пример «<-- con -->», который не является комментарием HTML. –

@GregLindahl это регулярное выражение не соответствовало «<-- con -->» и возвратило результат в ожидании OP. – dragon2fly

@GregLindahl Вы можете протестировать его здесь https://regex101.com/r/Tdf5In/1 – dragon2fly

Вы не должны игнорировать возврат каретки.

re.sub("(<!--.*?-->)", "", s, flags=re.MULTILINE)

источник

2015-01-29 06:41:33

Почему мы не должны удалять также возврат каретки? – Ethan

Ответы huazhihao соответствуют комментариям, которые возвращают каретки в комментарии. В одном из других ответов отсутствуют флаги = re.MULTILINE –

действительно должен быть 're.DOTALL', а не' re.MULTILINE'. Это 're.DOTALL', который соответствует' \ n' на '.' – fjsj

Не используйте регулярное выражение. Вместо этого используйте синтаксический анализатор XML, который в стандартной библиотеке более чем достаточен.

from xml.etree import ElementTree as ET 
html = ET.parse("comments.html") 
ET.dump(html) # Dumps to stdout 
ET.write("no-comments.html", method="html") # Write to a file

источник

2015-01-29 09:14:49

Хотя это хороший совет, производительность парсеров XML намного, гораздо медленнее, чем это регулярное выражение. –

html = re.sub(r"<!--(.|\s|\n)*?-->", "", html)

re.sub в основном найти экземпляр соответствия и заменить вторым аргументами. Для этого случая  соответствует чему-либо начинающему с . Точка и? означает что угодно, и \ s и \ n добавляют случаи комментария muti line.

источник

2017-08-10 16:44:18 Shawn

Добро пожаловать в [so]! Если бы ОП мог понять ваш код сам по себе, он, вероятно, не спросил бы. Пожалуйста, объясните, что он делает, чтобы он обеспечивал ценность для тех, кому нужно было бы искать регулярное выражение. – jpaugh

Спасибо, что напомнили! – Shawn

Как удалить HTML комментарии с помощью Regex в Python

ответ

Смежные вопросы