Я новичок в веб-соскабливании и надеюсь использовать его для сентиментального анализа. Я успешно отказался от первых 10 обзоров. В течение 280 других отзывов я не решался повторить следующий процесс более 20 раз ... Мне было интересно, есть ли пакет/функция, позволяющая мне более легко очистить все отзывы? Спасибо!Как очистить все обзоры фильмов от IMDB с помощью rvest
library(rvest)
library(XML)
library(plyr)
HouseofCards_IMDb <- read_html("http://www.imdb.com/title/tt1856010/reviews?ref_=tt_urv")
#Used SelectorGadget as the CSS Selector
reviews <- HouseofCards_IMDb %>% html_nodes("#pagecontent") %>%
html_nodes("div+p") %>%
html_text()
#perfrom data cleaning on user reviews
reviews <- gsub("\r?\n|\r", " ", reviews)
reviews <- tolower(gsub("[^[:alnum:] ]", " ", reviews))
sapply(reviews, function(x){})
print(reviews)