Я ищу выражение регулярного выражения, которое позволит мне извлечь содержимое HTML только из тегов тела из документа XHTML.Регулярное выражение для извлечения содержимого тела HTML
XHTML, который мне нужен для синтаксического анализа, будет очень простым файлом, мне не нужно беспокоиться о содержании JavaScript или <![CDATA[
тегах, например.
Ниже представлена структура HTML-файла, которую я должен проанализировать. Поскольку я точно знаю все содержимое HTML-файлов, с которыми мне придется работать, этот фрагмент HTML в значительной степени охватывает весь мой прецедент. Если я могу получить регулярное выражение, чтобы извлечь тело этого примера, я буду счастлив.
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<title>
</title>
</head>
<body contenteditable="true">
<p>
Example paragraph content
</p>
<p>
</p>
<p>
<br />
</p>
<h1>Header 1</h1>
</body>
</html>
Понятно, что я пытаюсь создать строку регулярных выражений, которая соответствует всем, кроме внутреннего содержимого тела. При этом я бы использовал метод C# Regex.Split()
для получения содержимого тела. Я думал, что это регулярное выражение:
((.|\n)*<body (.)*>)|((</body>(*|\n)*)
... будет делать трюк, но это, кажется, не работает вообще с моим содержанием испытания в RegexBuddy.
`Split()` является неправильным инструментом для этой работы. Просто используйте `Regex.Match (subject," (? S)
] *> (. *) "). Группы [1] .Value`. – 2016-09-14 05:47:10