2010-09-27 3 views
6

Мне нужно извлечь текст из файла HTML с помощью C#. Я пытаюсь использовать HTMLAgilityPack, но я вижу некоторые ошибки синтаксического анализа (теги не закрыты). Я использую эти два варианта:C# HTMLAgilityPack HTML to Text - Parse Errors

 htmlDoc.OptionFixNestedTags = true; 
     htmlDoc.OptionAutoCloseOnEnd = true; 

Есть ли «Закрепить все» типа. Я не забочусь об ошибках, я просто хочу контент или закрыть.

ответ

4

Может быть, это временное решение, но как только я должен был извлечь текст из HTML Я использовал регулярные выражения:

result = Regex.Replace(result, @"<(.|\n)*?>", String.Empty); 
result = Regex.Replace(result, @"^\n*", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase); 
result = Regex.Replace(result, @"\n*$", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase); 
result = result.Replace("\n", " "); 
+2

Спасибо! Я искал более HTMLAgilityPack решение ... – tvr