У меня возникли большие проблемы с попыткой проанализировать содержимое этих html с помощью библиотеки HtmlAgilityPack
.Html node issue with HtmlAgilityPack
В этой части кода, я хотел бы получить только URL (HREF), что reffers к uploaded.net, но я не могу определить, является ли URL-адрес reffers к нему.
<div class='downloads' id='download_block'>
<h5 style='text-align:center'>FREE DOWNLOAD LINKS</h5>
<h4>uploadable.ch</h4>
<ul class='parts'>
<li>
<a href="http://url/..." target="_blank"> text here</a>
</li>
</ul>
<h4>uploaded.net</h4>
<ul class='parts'>
<li>
<a href="http://url/..." target="_blank"> text here</a>
</li>
</ul>
<h4>novafile.com</h4>
<ul class='parts'>
<li>
<a href="http://url/..." target="_blank"> text here</a>
</li>
</ul>
</div>
Вот как это выглядит на веб-странице
И это то, что у меня есть:
nodes = myHrmlDoc.DocumentNode.SelectNodes(".//div[@class='downloads']/ul[@class='parts']")
Я не могу просто использовать массив-индекс для определения позиция, подобная:
nodes(0) = uploadable.ch node
nodes(1) = uploaded.net node
nodes(2) = novafile.com node
... потому что они могут изменять количество узлов и их хостинговых позиций.
Обратите внимание, что также URLs не содержит хостинг имена, являются переназначения как:
http://xxxxxx/r/YEHUgL44xONfQAnCNUVw_aYfY5JYAy0DT-i--
Что я мог сделать в C# или VB.Net еще ?.
Спасибо, это самый простой и удивительный ответ, что это за черная магия? эти предложения действительно являются частью синтаксиса XPATH ?. только один вопрос: «содержит» не учитывает регистр? если да, то это просто отлично. – ElektroStudios
@ElektroStudios да, это чувствительный к регистру, вы хотите сделать его случайным? вы можете, но он станет уродливым –
Я должен сделать его нечувствительным к регистру, чтобы предотвратить будущие головные боли, если бы вы могли мне помочь – ElektroStudios