2016-08-19 4 views
2

Здесь я, новичок в R. Я пытаюсь узнать больше о rvest и о том, как очистить от Интернета. Вот вики-странице (https://en.wikipedia.org/wiki/Andy_Murray) и ниже таблицы я хочу передать Р.Веб-скребок с использованием Rvest на теннисном столе из Wiki

table that i want

Использование CSS Selector, я обнаружил, что конкретная таблица на «.wikitable». После некоторых учебников на других веб-страницах, вот код, который я использовал:

library(rvest) 
tennis <- read_html("https://en.wikipedia.org/wiki/Andy_Murray") 
trial <- tennis %>% html_nodes(".wikitable") %>% html_table(fill = T) 
trial 

Я не мог выделить результат в таблице, что я хотел. Может кто-нибудь, пожалуйста, научите меня, как? Другое дело, что делает труба (%>%)?

ответ

3

Вы были почти там. Вы извлекли список. Для того, чтобы добраться до нужного элемента вам необходимо использовать индексацию:

trial[[2]] 

Чтобы очистить его дальнейшего использования:

df <- trial[[2]] 
df <- df[-1,] 
df[,17:20] <- NULL 

enter image description here

%>% называется труба из пакета magrittr/dplyr. Больше информации here.

Смежные вопросы