Как использовать Regex для извлечения тела из html-документа, с учетом того, что теги html и body могут быть в верхнем, нижнем регистре или могут отсутствовать?Regex Extract html Body
ответ
Не используйте для этого регулярное выражение - используйте что-то вроде Html Agility Pack.
Это проворный HTML парсер, который строит для чтения/записи DOM и поддерживает простой XPATH или XSLT (вы на самом деле не должны понимать XPATH ни XSLT, чтобы использовать его, не волнуйтесь. ..). Это библиотека .NET-кода, которая позволяет вам разобрать HTML-файлы «вне Интернета». Анализатор очень толерантен с «реальным миром». Объект модель очень похожа на то, что предлагает System.Xml, но для документов HTML (или потоков).
Затем вы можете извлечь body
с помощью XPATH.
Согласен. Я использовал это и должен сказать, что это быстро, аккуратно и чисто. –
Это должно получить вас довольно близко:
(?is)<body(?:\s[^>]*)>(.*?)(?:</\s*body\s*>|</\s*html\s*>|$)
Просьба предоставить подробное решение. – ShaileshDev
Как о чем-то вроде этого?
Он записывает все между <body></body>
тегами (без учета регистра в соответствии с RegexOptions.IgnoreCase
) в группу с именем theBody
.
RegexOptions.Singleline
позволяет обрабатывать многострочный HTML как одну строку.
Если HTML не содержит тегов <body></body>
, свойство матча Success
будет ложным.
string html;
// Populate the html string here
RegexOptions options = RegexOptions.IgnoreCase | RegexOptions.Singleline;
Regex regx = new Regex("<body>(?<theBody>.*)</body>", options);
Match match = regx.Match(html);
if (match.Success) {
string theBody = match.Groups["theBody"].Value;
}
- 1. Regex extract image ссылки
- 2. php - regex hostname extract
- 3. Extract with Regex
- 4. Extract Значение с Regex
- 5. regex extract substring
- 6. PHP Regex preg_match extract
- 7. Regex extract in Mule
- 8. Regex Extract [Jmeter]
- 9. Regex extract substring ruby
- 10. Regex XSLT, extract match
- 11. Regex Extract Строка
- 12. Extract Строка Regex
- 13. regex extract tableau
- 14. Python olefile extract text of body
- 15. Extract название от содержания HTML
- 16. regex extract img src javascript
- 17. WebView extract and edit html
- 18. regex экстракт код из <body> ...</body>?
- 19. java regex extract не работает?
- 20. VBS regex extract mutiple blocks
- 21. Nintex .NET Framework RegEx Extract
- 22. Powershell REGEX extract last word
- 23. Regex Extract ID Из URL
- 24. Regex extract numbers всех длин
- 25. regex extract текст внутри цитат
- 26. regex extract email из строк
- 27. Regex Matching, Java. Match & Extract
- 28. yahoo pipes regex extract hyperlink
- 29. Python extract value beautifulsoup regex
- 30. Regex Extract Все, используя свинью
Дубликат http://stackoverflow.com/questions/356340/regular-expression-to-extract-html-body-content? – M4N