-1
url <- "http://www.officedepot.com/a/browse/technology/N=5+9021/;jsessionid=00000a2ZDz-8D4MKY5wMPuithDX:17h4h7bfo"
library(RCurl)
library(XML)
html <- getURL(url[u])
trim <- function (x) gsub("^\\s+|\\s+$", "", x)
docs <- htmlParse(html, asText=TRUE)
data <-xpathApply(docs, "//*[not(self::script)]/text()",xmlValue)
data <- trim(gsub('\t|\n',' ',unlist(data)))
data <- data[data!='']
head(data)
Приведенный выше код успешно извлечь весь текст из любого URL, но вместе с текстом, я получаю некоторые данные тегов в стилеКак извлечь текст из HTML с помощью XPath
как, смотрите ниже стиль тега
<style>
.dat_wrapper {
visibility: hidden;
}
.cke_widget_element .dat_wrapper {
visibility: visible;
}
И извлеченный текст из этого тега с помощью XPATH expresseion я уже упоминал выше, см выход данные [2]
> data[2]
[1] ".dat_wrapper {видимость: скрытый;} .cke_widget_element .dat_wrapper {видимость: видимый;}"
Я не хочу таких данных. Пожалуйста, помогите мне преодолеть это.
Итак, вы хотите пропустить только '