2016-06-01 3 views
0

Я хочу, чтобы очистить весь текст в следующем веб-сайте: http://curia.europa.eu/juris/document/document.jsf?text=&docid=49703&pageIndex=0&doclang=en&mode=lst&dir=&occ=first&part=1&cid=656172Web выскабливание с помощью rvest

Мой код:

html = http://curia.europa.eu/juris/document/document.jsf?text=&docid=49703&pageIndex=0&doclang=en&mode=lst&dir=&occ=first&part=1&cid=656172 

    main_content <- html_nodes(html, css = "#document_content") 
    main_text <- main_content %>% html_nodes("p") %>%html_text() 

Однако, таким образом, не весь текст, извлекаются из-за какой-то текст находится в узле «dd» ... «/ dd»

Интересно, могу ли я сделать что-то вроде html_nodes («p») или html_nodes («dd») или html_nodes («dt») для замены html_nodes («p») в вышеуказанном доде.

Как я могу это достичь? Или есть другой способ, которым я могу выполнить свою задачу? В идеале, я не хочу использовать

main_text <- main_content %>% html_text() 

потому что я хочу отделить каждое предложение.

ответ

0

При выборе CSS, если вы разделите узлы, которые вы хотите запятой, то есть как логическое ИЛИ ...

library("rvest") 
url = "http://curia.europa.eu/juris/document/document.jsf?text=&docid=49703&pageIndex=0&doclang=en&mode=lst&dir=&occ=first&part=1&cid=656172" 
page <- read_html(url) 
main_text <- page %>% 
    html_nodes("#document_content") %>% 
    html_nodes("p,dd,dt") %>% 
    html_text() 
Смежные вопросы