Я пытаюсь извлечь даты из 40k URL-адресов. URL-адреса, как это:Извлечение даты из строки (URL)
1) ht-p://mashable.com/2014/09/19/shonda-rhimes-new-york-times/
2) http://mashable.com-2014/11/02/friendly-robbers-snl-sketch/
Я использую это:
ymd(as.numeric(gsub("\\D", "", df$URL)))
, которые прекрасно работали с 1 или 2 записей, но с 40k записей дает мне
Предупреждение сообщение: 4714 не удалось проанализировать. Это дает NA для этих значений 4714.
Я что-то не хватает?
есть ли NUM выходы на URL, кроме даты .. –
Try 'ГМД (as.numeric (GSUB (». */(\\ d {4}/\\ d {2}/\ \ d {2}) /.* "," \\ 1 ", df $ URL)))' –
Ваше основное решение работает просто отлично даже с 40k размером вектора URL-адресов. 'urls = rep (c (" ht-p: //mashable.com/2014/09/19/shonda-rhimes-new- york-times/"," http: //mashable.com-2014/11/ 02/friendly-robbers-snl-sketch/"), 20000)' 'date = ymd (as.numeric (gsub (" \\ D "," ", urls)))' –