2015-01-30 3 views
-1

Это страница, которую я пытаюсь очистить, http://www.footballlocks.com/nfl_point_spreads_week_1.shtml, я хочу получить простой data.frame с 4 столбцами, чтобы я мог выполнить дальнейший анализ. Я попытался использовать пакет XML, но не очень повезло. Спасибо за вашу помощьСкопировать данные из HTML

week.1 <- readHTMLTable("http://www.footballlocks.com/nfl_point_spreads_week_1.shtml") 
str(week.1) 
+0

Что именно ты пробовал? Что означает «не очень удача»? Что вы не смогли выполнить? Сейчас звучит так, будто вы просто просите кого-то написать код для вас, а не задавать конкретный вопрос программирования. – MrFlick

+0

Вы ищете: week.1 <- readHTMLTable ("http://www.footballlocks.com/nfl_point_spreads_week_1.shtml", which = 1) – cory

+0

Я могу понять, почему вы боретесь с этим сайтом. Множество, много, много уровней вложенных таблиц. Наихудший. @cory, вы попробовали это? Я сомневаюсь, что содержание этого фрейма данных - это то, что ищет OP (футболисты - просто ужасно обработанный сайт) – hrbrmstr

ответ

0

Pinnacle Sports имеет API вы можете использовать, если вы хотите реального времени наиболее NFL шансы. Может быть, лучше для ваших целей, чем очистить одну неделю от этой веб-страницы; это часто используемый источник для аналитики футбольной линии.

3

rvest может это сделать. Вы можете использовать XPath, чтобы найти все таблицы в 4-колонки таким образом:

library(rvest) 

url <- "http://www.footballlocks.com/nfl_point_spreads_week_1.shtml" 

pg <- html(url) 

tabs <- pg %>% html_nodes(xpath="//table[@cols='4']") 

html_table(tabs[[1]], header=TRUE) 

## Date & Time  Favorite Spread  Underdog 
## 1 9/4 8:35 ET  At Seattle -5.0 Green Bay 
## 2 9/7 1:00 ET  New Orleans -3.0 At Atlanta 
## 3 9/7 1:00 ET At St. Louis -3.0 Minnesota 
## 4 9/7 1:00 ET At Pittsburgh -6.0 Cleveland 
## 5 9/7 1:00 ET At Philadelphia -10.0 Jacksonville 
## 6 9/7 1:00 ET  At NY Jets -6.5  Oakland 
## 7 9/7 1:00 ET At Baltimore -1.0 Cincinnati 
## 8 9/7 1:00 ET  At Chicago -7.0  Buffalo 
## 9 9/7 1:00 ET  At Houston -3.0 Washington 
## 10 9/7 1:00 ET At Kansas City -3.0 Tennessee 
## 11 9/7 1:00 ET  New England -4.0  At Miami 
## 12 9/7 4:25 ET At Tampa Bay -4.5  Carolina 
## 13 9/7 4:25 ET San Francisco -3.5 At Dallas 
## 14 9/7 8:30 ET  At Denver -8.5 Indianapolis 

Если нужно пнуть его старой школы-как:

library(XML) 

url <- "http://www.footballlocks.com/nfl_point_spreads_week_1.shtml" 

doc <- htmlParse(url) 

readHTMLTable(doc["//table[@cols='4']"][[1]]) 

(тот же результат)

+0

, какую версию R вы используете? – RcodeNFL

+0

Я использую 3.1.1, и пакет недоступен, любые предложения? – RcodeNFL

+0

Файл 'DESCRIPTION' для' rvest' говорит 'R (> = 3.0.1)'. Как вы его устанавливаете? – hrbrmstr

Смежные вопросы