Я пытаюсь преобразовать веб-страницу в простой текст. Но если я столкнулся с таблицей, то получаю td и tr теги. Если я заменю теги таблицы, я не могу получить часть содержимого.Конвертировать веб-страницу в обычный текст ..?
Вот мой код
string s = Regex.Replace(htmldoc, "<script.*?</script>", "", RegexOptions.Singleline | RegexOptions.IgnoreCase);
s = Regex.Replace(s, "<!--.*?-->", "", RegexOptions.Singleline | RegexOptions.IgnoreCase);
s = Regex.Replace(s, "<style.*?style>", "", RegexOptions.Singleline | RegexOptions.IgnoreCase);
s = Regex.Replace(s, "<a.*?a>", "", RegexOptions.Singleline | RegexOptions.IgnoreCase);
s = Regex.Replace(s, "<img.*?img>", "", RegexOptions.Singleline | RegexOptions.IgnoreCase);
s = Regex.Replace(s, "<table.*?table>", "", RegexOptions.Singleline | RegexOptions.IgnoreCase);
HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
doc.LoadHtml(s);
s = doc.DocumentNode.SelectSingleNode("//body").InnerText.Trim();
Пожалуйста, проверьте его и скажите мне, как я могу получить содержимое из таблицы, не получая TD и TR-теги.
Я поставлю обязательное предупреждение о том, что не разумно использовать [регулярное выражение для анализа XML/HTML] (http://stackoverflow.com/questions/2400623/if-youre-not-supposed-to-use-regular -expressions-на-синтаксического анализа в HTML-то-как-это-HTM). Ваша проблема показывает это хорошо, древовидная структура тегов таблицы HTML затрудняет работу с регулярным выражением. –
Возможный дубликат: http://stackoverflow.com/questions/731649/how-can-i-convert-html-to-text-in-c –