Мне нужно создать таблицу в списке R для списка розничных продавцов одежды по странам, используя веб-страницу https://en.wikipedia.org/wiki/Category:Clothing_brands_by_country.Как очистить данные из Википедии с помощью R
Я пробовал смотреть на различные ссылки, но не мог найти ничего, что сработало. Основная потребность прямо сейчас состоит в том, чтобы иметь возможность извлекать ссылки со страницы, а затем принуждать ее открывать и очищать данные от нее.
library(XML)
library(RCurl)
options(RCurlOptions = list(cainfo = system.file("CurlSSL", "cacert.pem", package = "RCurl")))
path<-"https://en.wikipedia.org/wiki/Category:Clothing_brands_by_country"
webpage <- getURL(path)
webpage <- readLines(tc <- textConnection(webpage)); close(tc)
pagetree <- htmlTreeParse(webpage, error=function(...){}, useInternalNodes = TRUE, encoding=FALSE)
не имеют возможности ... Я знаю R для стандартного анализа, а не для скребков. Можете сделать это с Python, но не вариант, к сожалению –
Проверьте пакет rvest и демонстрационную версию. Это может помочь вам дальше. Или просто скопируйте и вставьте информацию. – phiver
Что делает ваш код в настоящее время? – halfer