C# HTMLAgilityPack HTML to Text - Parse Errors

Мне нужно извлечь текст из файла HTML с помощью C#. Я пытаюсь использовать HTMLAgilityPack, но я вижу некоторые ошибки синтаксического анализа (теги не закрыты). Я использую эти два варианта:C# HTMLAgilityPack HTML to Text - Parse Errors

 htmlDoc.OptionFixNestedTags = true; 
     htmlDoc.OptionAutoCloseOnEnd = true;

Есть ли «Закрепить все» типа. Я не забочусь об ошибках, я просто хочу контент или закрыть.

источник

2010-09-27 tvr

Может быть, это временное решение, но как только я должен был извлечь текст из HTML Я использовал регулярные выражения:

result = Regex.Replace(result, @"<(.|\n)*?>", String.Empty); 
result = Regex.Replace(result, @"^\n*", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase); 
result = Regex.Replace(result, @"\n*$", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase); 
result = result.Replace("\n", " ");

источник

2010-09-27 09:42:21 Ichibann

Спасибо! Я искал более HTMLAgilityPack решение ... – tvr

C# HTMLAgilityPack HTML to Text - Parse Errors

ответ

Смежные вопросы