Я попытался понять несколько примеров, включая вопросы здесь, поэтому я извиняюсь, если это кажется мне дубликат, но я не могу найти регулярное выражение, которое я могу понять.
У меня есть HTML для синтаксического анализа с использованием синтаксического анализатора XML, но я хочу удалить из него <head> </head > теги из этого содержимого, так как остальные действительны для нормального анализа XML. теги < голова > к </голова > должны быть удалены, а их содержание так, чтобы внешний HTML не влияет < тела > теги и т.д.
Это раздел, включая HTML Head Я хочу снять для справки:Как удалить именованные HTML-теги и содержимое из строки?
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" >
<html>
<head>
<link rel="stylesheet" type="text/css" href="/style/stylesheet.css" />
<meta name="description" content="Information" />
<base target="_top">
</head>
<body>
<!-- Body Here -->
</body>
</html>
Мне также нужно снять DocType, если это можно сделать с помощью RegEx, тогда это было бы здорово. Голова всегда одна и та же - я хочу удалить из < голову > в </head > включительно только и, если возможно, удалите DOCTYPE из текста.
Также это должно работать в Silverlight и использовать System.Text.RegularExpressions или аналогичные для работы.
+1 простой и простой – Thea
Если вы не контролируете HTML-код и гарантируете его корректность, '