Я хочу, чтобы очистить весь текст в следующем веб-сайте: http://curia.europa.eu/juris/document/document.jsf?text=&docid=49703&pageIndex=0&doclang=en&mode=lst&dir=&occ=first&part=1&cid=656172Web выскабливание с помощью rvest
Мой код:
html = http://curia.europa.eu/juris/document/document.jsf?text=&docid=49703&pageIndex=0&doclang=en&mode=lst&dir=&occ=first&part=1&cid=656172
main_content <- html_nodes(html, css = "#document_content")
main_text <- main_content %>% html_nodes("p") %>%html_text()
Однако, таким образом, не весь текст, извлекаются из-за какой-то текст находится в узле «dd» ... «/ dd»
Интересно, могу ли я сделать что-то вроде html_nodes («p») или html_nodes («dd») или html_nodes («dt») для замены html_nodes («p») в вышеуказанном доде.
Как я могу это достичь? Или есть другой способ, которым я могу выполнить свою задачу? В идеале, я не хочу использовать
main_text <- main_content %>% html_text()
потому что я хочу отделить каждое предложение.