Я использую этот код, чтобы лишить конкретную HTML-тег из анализируемой HTML, используя AngleSharp
(как это рекомендуется по сравнению с использованием регулярных выражений для выполнения таких работ (AngleSharp
в настоящее время поддерживается, HtmlAgilityPack
нет, следовательно, Я двигался к последнему)Strip разобран HTML текст из HTML комментариев с помощью AngleSharp
Он отлично работает. - но теперь я хочу, чтобы удалить HTML комментарии, а смысл все, что находится между <!--
и -->
тегами
Как это может быть достигнуто с помощью AngleSharp
..? Использование QuerySelector здесь не подходит.
private string ExtractContentFromHtml(string input)
{
List<string> tagsToRemove = new List<string>
{
"script",
"style",
"img"
};
var config = Configuration.Default.WithJavaScript();
HtmlParser hp = new HtmlParser(config);
List<IElement> tags = new List<IElement>();
List<string> nodeTypes = new List<string>();
var hpResult = hp.Parse(input);
try
{
foreach (var tagToRemove in tagsToRemove)
tags.AddRange(hpResult.QuerySelectorAll(tagToRemove));
foreach (var tag in tags)
tag.Remove();
}
catch (Exception ex)
{
_errors.Add(string.Format("Error in cleaning html. {0}", ex.Message));
}
var content = hpResult.QuerySelector("body");
return (content).InnerHtml;
}
Моя проблема сейчас в том, что есть теги сценариев, которые не являются удаляется ... – Veverke