2015-09-02 4 views
0

Я пытаюсь выяснить способ извлечения ссылки со страницы вики. Веб-страница выглядит следующим образом:Скребка веб-ссылки с Rvest

wiki <- html("https://en.wikipedia.org/wiki/Category:1879_births") 

Я заинтересован по следующей ссылке:

v = html_node(wiki, "a[href*='pages']") 
<a href="/w/index.php?title=Category:1879_births&amp;pagefrom=Barrymore%2C+Ethel%0AEthel+Barrymore#mw-pages" title="Category:1879 births">next page</a> 

Я хочу, чтобы извлечь ссылку после href, но когда я пытаюсь преобразовать v как характер и раскол я получаю следующее сообщение об ошибке: "не может принуждать тип 'externalptr' к вектору типа 'character' '

Кто-нибудь знает, как бороться с этим "externalptr" тип и извлечение ссылки?

Заранее благодарен!

+0

Данные, сохраненные на уровне C. Чтобы извлечь его, вы можете поместить '@ href' перед скобками. Возможно, попробуйте xpath '// a/@ href [содержит (., 'Pages')]' или, поскольку он заканчивается на 'pages', возможно,' // a/@ href ['pages' = substring (., String-length (.) - 4)] ' –

+0

@RichardScriven Это абсолютно идеально. Большое спасибо ! –

ответ

0

Это должно извлечь атрибут HREF:

html_attr(v, "href") 
Смежные вопросы