2014-10-31 5 views
0

Есть ли у них возможность получить не-html-контент со страницы? То, что я подразумеваю под не-html, это слова/предложения на странице, отличные от html-тегов.Получить содержимое без html со страницы

Я могу взять исходный код, используя

Dim sourceString As String = New System.Net.WebClient().DownloadString("SomeWebPage.com") 

Но как я могу получить содержимое, не только HTML с веб-страницы, как так?

+0

первый, получить значение SourceString в яваскрипте переменной Затем с помощью JQuery с Regex (используйте регулярное выражение, которое может найти HTML-тег <>, много там, Google it), чтобы перебирать страницу html и получать все не-html-контент –

+1

Хорошее горе! RegEx? Попробуйте HtmlAgilityPack, если вы хотите анализировать HTML в мире .NET. – Tim

+2

http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454 – 5uperdan

ответ

0

Это должно работать, если HTML правильно структурирован ...

Dim myhtml As String = New System.Net.WebClient().DownloadString("http:\\www.test.com") 
Dim plaintext As String = System.Text.RegularExpressions.Regex.Replace(myhtml, "<.*?>", "") 
Смежные вопросы