Я хочу, чтобы разобрать этот HTML: и получить эти элементы из него:Зачистка с rvest - полный НСБОМ, когда тег нет
а) p
тега, с class: "normal_encontrado"
.
b) div
с class: "price"
.
Иногда в некоторых продуктах нет метки p
. Если это так, то к вектору, который собирает текст с этих узлов, следует добавить NA
.
Идея состоит в том, чтобы иметь 2 вектора с одинаковой длиной, и после их объединения сделать data.frame
. Есть идеи?
HTML-часть:
<html>
<head></head>
<body>
<div class="product_price" id="product_price_186251">
<p class="normal_encontrado">
S/. 2,799.00
</p>
<div id="WC_CatalogEntryDBThumbnailDisplayJSPF_10461_div_10" class="price">
S/. 2,299.00
</div>
</div>
<div class="product_price" id="product_price_232046">
<div id="WC_CatalogEntryDBThumbnailDisplayJSPF_10461_div_10" class="price">
S/. 4,999.00
</div>
</div>
</body>
</html>
R Код:
library(rvest)
page_source <- read_html("r.html")
r.precio.antes <- page_source %>%
html_nodes(".normal_encontrado") %>%
html_text()
r.precio.actual <- page_source %>%
html_nodes(".price") %>%
html_text()
Что-то вроде этого может быть полезно - [R dataframe из xml, когда значения несколько или отсутствуют] (http://stackoverflow.com/questions/17349630/r-dataframe-from-xml-when-values-are-multiple -or-missing) – thelatemail