Я могу webscrape таблицу с веб-страницы, содержащей новостиR webscraping: допрашивая на дату
library(XML)
webpage <- "http://www.tradingeconomics.com/calendar"
tables <- readHTMLTable(webpage)
n.rows <- unlist(lapply(tables, function(t) dim(t)[1]))
dfcal <- as.data.frame(tables$calendar)
Например, как я мог webscrape новости с января 2014 года? Я могу сделать это на веб-странице, изменив настройки кнопок, но как я могу это сделать изнутри R?
Также есть ли лучшие способы сбора экономических новостей изнутри R? Я смотрел на http://www.rseek.org/, но ничего не смог найти. Благодарим вас за помощь.
<form method="post" action="/calendar" id="aspnetForm">
<div class="aspNetHidden">
<input type="hidden" name="__EVENTTARGET" id="__EVENTTARGET" value="" />
<input type="hidden" name="__EVENTARGUMENT" id="__EVENTARGUMENT" value="" />
<input type="hidden" name="__LASTFOCUS" id="__LASTFOCUS" value="" />
<input type="hidden" name="__VIEWSTATE" id="__VIEWSTATE"
<script type="text/javascript">
//<![CDATA[
var theForm = document.forms['aspnetForm'];
if (!theForm) {
theForm = document.aspnetForm;
}
function __doPostBack(eventTarget, eventArgument) {
if (!theForm.onsubmit || (theForm.onsubmit() != false)) {
theForm.__EVENTTARGET.value = eventTarget;
theForm.__EVENTARGUMENT.value = eventArgument;
theForm.submit();
}
}
//]]>
</script>
Необходимо использовать отправку запроса POST. что-то вроде 'library (Rcurl); doc <- postForm ("http://www.tradingeconomics.com/china/calendar", startDate = "2014-01-22", ...); readHTmlTable (doc)) ' – agstudy