2014-12-03 2 views
0

Я хочу использовать HtmlAgilityPack для очистки содержимого с GSMArena.com, в частности, я хочу очистить технические спецификации сотовых телефонов.C# HtmlAgilityPack - Скребок

Желаемая Результат:

http://www.gsmarena.com/nokia_lumia_520-5322.php Я хотел бы, чтобы скоблить вес, размеры, и т.д.

Выпуск: Путь узла будет отличаться от всего обо всех моделях.

Мой вопрос:

Как бы я скоблить путем поиска? Например, если бы я хотел очистить вес продукта, есть ли способ сказать HTMLAgilityPack для поиска тега, а затем перейти к TD, который следует за ним, а затем очистить внутренний текст этого TD?

ответ

2

XPath - ваш друг. Learn it here. (В случае ссылки гнили, просто Google XPath 1.0 учебник)

Для этого документа:

string weight= doc.DocumentNode.SelectSingleNode(@"//td[a[contains(text(),'Weight')]]/following-sibling::td").InnerText; 

поможет вам вес.

Объяснение для XPath: для всех узлов (//) выберите элемент «td», который содержит элемент «a», который содержит текст «Вес», а затем выберите следующий узел «td».

Смежные вопросы