Я пытаюсь проанализировать некоторые данные Formule 1. В Википедии есть таблица с данными, которые я хочу. Я импортирую данные в R с помощью кода ниже:readHTMLTable не дает мне информацию, которую я хочу
library(XML)
library(RCurl)
url <- "https://en.wikipedia.org/wiki/List_of_Formula_One_drivers"
tabs <- getURL(url)
tabs <- readHTMLTable(tabs, stringsAsFactors=FALSE)
pilots <- tabs[[3]]
pilots <- pilots[-dim(pilots)[1], ]
head(pilots[, 1])
[1] "Abate, CarloCarlo Abate"
[2] "Abecassis, GeorgeGeorge Abecassis"
[3] "Acheson, KennyKenny Acheson"
[4] "Adamich, Andrea deAndrea de Adamich"
[5] "Adams, PhilippePhilippe Adams"
[6] "Ader, WaltWalt Ader"
Однако имена пилотов странные. Обратите внимание, как они. Я хотел бы, чтобы они были так:
head(pilots[, 1])
[1] "Carlo Abate"
[2] "George Abecassis"
[3] "Kenny Acheson"
[4] "Andrea de Adamich"
[5] "Philippe Adams"
[6] "Walt Ader"
Тем не менее, кажется, я не могу написать регулярное выражение, которое может справиться с этой проблемой или найти аргумент для функции readHTMLTable
, которая игнорирует значение SortKey в Мне интересно. Как я могу решить свою проблему?
Используйте 'readHTMLTable' с аргументом' elFun' на заказ. – jdharrison