Я использую R лома веб-сайт, и при разборе HTML-код, у меня есть этот код ниже:Как определить узел с его значением XML в XPath?
<div class="line">
<h2 class="clearfix">
<span class="property">Number<div>number extra</div></span>
<span class="value">3</span>
</h2>
</div>
<div class="line">
<h2 class="clearfix">
<span class="property">Surface</span>
<span class="value">72</span>
</h2>
</div>
Теперь я хотел бы получить некоторые значения в этом коде.
Как определить диапазон с величиной xml «Номер». и получить узел, чтобы извлечь «лишний номер»? Я знаю, как использовать xpathApply для идентификации узлов, чтобы получить xmlValue или некоторые атрибуты (например,
href
сxmlGetAttr
). Но я не знаю, как определить узел, зная его значение xml.xpathApply(page, '//span[@class="property"]',xmlValue)
Если я хочу, чтобы получить «значение» 72 для класса недвижимости «Surface», то, что является наиболее эффективным способом?
Вот я начал делать: Сначала я извлечь все "имущество":
xpathApply(page, '//span[@class="property"]',xmlValue)
Затем извлечь все "значение":
xpathApply(page, '//span[@class="value"]',xmlValue)
Тогда я построить список или матрицу, так что я могу идентифицировать значение «Поверхность», которое равно 72. Но проблема в том, что иногда диапазон с class="property"
не может иметь диапазон с классом = «значение», который следует только в h2
. Поэтому я не могу создать правильный список.
Может быть, это самый эффективный способ: определить промежуток с class="property"
, а затем определить h2
, который содержит этот span
, а затем определить span
с class="value"
?
отблагодарить вы @kjhughes для редактирования –