С этого сайта, http://www.lewisthomason.com/locations/ эта часть HTML кода имеет то, что я хочу извлечь, а именно, четыре города, в которых расположены офисы фирмы (Ноксвилл, Мемфис, Нэшвилл и Sevierville)XPath 1.0 выражение возвращает NULL
<div id="the_content">
<div class="one_fourth">
<h3>
<cufon class="cufon cufon-canvas" alt="KNOXVILLE" style="width: 87px; height: 26px;">
<canvas width="104" height="25" style="width: 104px; height: 25px; top: -1px; left: 0px;"></canvas>
<cufontext>KNOXVILLE</cufontext>
</cufon>
</h3>
<p>
<h6>
</div>
<div class="one_fourth">
<div class="one_fourth">
<div class="one_fourth last">
<div class="clearboth"></div>
<p></p>
</div>
</div>
<div id="secondary"> </div>
<div class="clearboth"></div>
</div>
Я попытался несколько вариаций этих поисков XPath
require(XML)
require(httr)
doc <- content(GET('http://www.lewisthomason.com/locations/'))
xpathSApply(doc, "//div[@id = 'the_content']/div//p", xmlValue, trim = TRUE)
xpathSApply(doc, "//div[@class = 'one_fourth']//p", xmlValue, trim = TRUE)
Все я получаю NULL. Какое выражение вернет названия городов или весь адрес? Я знаю, что четвертый город так меня пересмотрит.
Благодарим за любые рекомендации.
обертка для обертки к обертке;) – jdharrison
Действительно :-) Хотя это должно сделать это намного проще для людей, чтобы получить данные, особенно с 'SelectorGadget' букмарклет Hadley включены в виньетке. Это прекрасно сочетается с целым, новым «причудливым» причудом. – hrbrmstr
BTW rvest импортирует%>% от magrittr, так что вам не нужно dplyr – hadley