2015-07-10 2 views
1

Мне нужно получить определенную часть данных с нескольких страниц Википедии. Как я могу это сделать с помощью пакета WikipediR? Или есть другой лучший вариант для того же самого. Если быть точным, мне нужна только следующая отмеченная часть со всех страниц.Как получить данные со страницы Википедии с помощью пакета WikipediR в R?

Wikipedia page on Sachin Tendulkar

Как я могу получить это? Любая помощь будет оценена по достоинству.

+0

Вы что-то пробовали? – MichaelChirico

+0

Какой формат вы хотите? Я предполагаю, что HTML-код таблицы не будет полезен ... – Tgr

+0

@tgr Для меня данные в любом формате будут делать. Я могу получить HTML-код таблицы, но потом должен чистить данные слишком подробно. –

ответ

3

Можете ли вы быть более конкретным относительно того, что вы хотите? Вот простой способ импорта данных из Интернета и, в частности, из Википедии.

library(rvest)  
scotusURL <- "https://en.wikipedia.org/wiki/List_of_Justices_of_the_Supreme_Court_of_the_United_States" 

## ******************** 
## Option 1: Grab the tables from the page and use the html_table function to extract the tables you're interested in. 

temp <- scotusURL %>% 
    html %>% 
    html_nodes("table") 

html_table(temp[1]) ## Just the "legend" table 
html_table(temp[2]) ## THE MAIN TABLE 

Теперь, если вы хотите импортировать данные из нескольких страниц, которые имеют по существу ту же структуру, но может просто изменить на некоторое число или что-то, пожалуйста, попробуйте этот метод.

library(RCurl);library(XML) 

pageNum <- seq(1:10) 
url <- paste0("http://www.totaljobs.com/JobSearch/Results.aspx?Keywords=Leadership&LTxt=&Radius=10&RateType=0&JobType1=CompanyType=&PageNum=") 
urls <- paste0(url, pageNum) 

allPages <- lapply(urls, function(x) getURLContent(x)[[1]]) 
xmlDocs <- lapply(allPages, function(x) XML::htmlParse(x)) 
Смежные вопросы