Я работаю над скребком в R для подачи Atom и имеет проблемы с захватом ссылки для каждой статьи. Вот мой код:R Scrape Atom Feed к кадру данных
url <- "http://www.stwnewspress.com/search/?mode=article&q=&nsa=eedition&t=article&l=1000&s=&sd=desc&f=atom&d=&d1=&d2="
pageSource <- getURL(url, encoding = "UTF-8")
parsed <- htmlParse(pageSource)
titles <- xpathSApply(parsed, '//entry/title', xmlValue)
authors <- xpathSApply(parsed, '//entry/author', xmlValue)
links <- xpathSApply(parsed, '//entry/link/@href')
dataFrame <- data.frame(pubDates, titles, authors)
Моя проблема в том, что я набираю 18 названий, 18 авторов и 20 ссылок. Я думаю, что я собираю первые две ссылки со страницы фида, но я не уверен, как остановить их сбор.
Благодарим за помощь!
Вы можете попробовать использовать [R is RSS] (https://github.com/noahhl/r-does-rss), а также ответ ad @ jdharrison – hrbrmstr