Выделить все ссылки из таблицы Html с помощью XPath (и HtmlAgilityPack)

Я пытаюсь извлечь все ссылки с атрибутом href, который начинается с http: //, https: // или /. Эти ссылки лежат внутри таблицы (tbody> tr> td и т. Д.) С определенным классом. Я думал, что могу указать только элемент a без всего пути к нему, но он, похоже, не работает. Я получаю NullReferenceException на линии, которая выбирает ссылку:Выделить все ссылки из таблицы Html с помощью XPath (и HtmlAgilityPack)

var table = doc.DocumentNode.SelectSingleNode("//table[@class='containerTable']"); 
if (table != null) 
{ 
    foreach (HtmlNode item in table.SelectNodes("a[starts-with(@href, 'https://')]")) 
    { 
     //not working

Я не знаю о каких-либо рекомендациях или наилучшей практике, когда дело доходит до XPath. Я создаю накладные расходы, когда я дважды запрашиваю документ?

источник

2010-03-20 Adam Asham

В моем решении я предоставляю единое выражение XPath для всех трех разных '' узлов, которые должны быть выбраны. Кроме того, более точно и эффективно найти все '' узлы в документе (как еще один ответ рекомендует - // a) –

Использование:

//tbody/descendant::a[starts-with(@href,'https://') 
        or 
         starts-with(@href,'http://') 
        or 
         starts-with(@href,'./') 
         ]

Вы все еще есть проблемы, если вы не исправите свой код, чтобы отразить тот факт, что метод XmlNode.SelectNodes() экземпляр имеет тип возвращаемого XmlNodeList, не HtmlNode.

источник

2010-03-21 04:37:28

@Tomalak, Спасибо за исправление опечатки. –

Проблемы в том, что вы выбираете таблицу, а затем сразу же пытаетесь выбрать якоря, как если бы они были прямыми дедуктами. Есть tr и td теги посередине.

Итак, если вы измените свое XPath к следующему, все должно работать:

"tbody/tr/td/a[starts-with(@href, 'https://')]"

Это не будет работать, если ваши якоря завернутые в чем-то еще, чтобы вы могли выбрать все якорей в текущем наборе узлов (т.е. таблица):

"//a[starts-with(@href, 'https://')]"

См this подробнее о синтаксисе XPath.

источник

2010-03-20 22:28:02 Oded

Выделить все ссылки из таблицы Html с помощью XPath (и HtmlAgilityPack)

ответ

Смежные вопросы