2015-06-24 2 views
-1
url <- "http://www.officedepot.com/a/browse/technology/N=5+9021/;jsessionid=00000a2ZDz-8D4MKY5wMPuithDX:17h4h7bfo" 

library(RCurl) 
library(XML) 
html <- getURL(url[u]) 

trim <- function (x) gsub("^\\s+|\\s+$", "", x) 
docs <- htmlParse(html, asText=TRUE) 
data <-xpathApply(docs, "//*[not(self::script)]/text()",xmlValue) 
data <- trim(gsub('\t|\n',' ',unlist(data))) 
data <- data[data!=''] 
head(data) 

Приведенный выше код успешно извлечь весь текст из любого URL, но вместе с текстом, я получаю некоторые данные тегов в стилеКак извлечь текст из HTML с помощью XPath

как, смотрите ниже стиль тега

<style> 
    .dat_wrapper { 
     visibility: hidden; 
    } 
    .cke_widget_element .dat_wrapper { 
     visibility: visible; 
    } 

И извлеченный текст из этого тега с помощью XPATH expresseion я уже упоминал выше, см выход данные [2]

> data[2] 

[1] ".dat_wrapper {видимость: скрытый;} .cke_widget_element .dat_wrapper {видимость: видимый;}"

Я не хочу таких данных. Пожалуйста, помогите мне преодолеть это.

+0

Итак, вы хотите пропустить только '

Смежные вопросы