Я хотел бы задать вопрос по вопросу, с которым я в настоящее время застрял. При попытке очистить HTML-страницу (используя RCURL) я столкнулся с этой ошибкой: «Ошибка в curlMultiPerform (multiHandle): встроенная нуль в строке». Я много читал об этом типе ошибок и советов о том, как с этим бороться (в том числе и от Дункана Хэма Ланга, создателя пакета RCurl). Но даже после применения его рекомендаций (следующим образом) я получаю ту же ошибку:Как исправить эту ошибку RCurl?
htmlPage <- rawToChar(getURLContent(url, followlocation = TRUE, binary = TRUE))
doc <- htmlParse(htmlPage, asText=TRUE)
Я что-то упустил? Любая помощь будет высоко ценится!
Edit:
Однако, есть вторая ошибка я не упомянул в исходном посте. Это происходит здесь:
data <- lapply(i <- 1:length(links),
function(url) try(read.table(bzfile(links[i]),
sep=",", row.names=NULL)))
Ошибка: Error in bzfile(links[i]) : invalid 'description' argument
.
«ссылки» список ПОЛНЫЙ URL-файлы, строится следующим образом:
links <- lapply(filenames, function(x) paste(url, x, sep="/"))
Используя links[i]
, я пытаюсь обратиться к текущему элементу списка ссылок в текущей итерации ` lapply().
Второй Edit:
В настоящее время я борюсь со следующим кодом. Я нашел еще несколько случаев, когда люди советуют точно такой же подход, который держит меня любопытно, почему он не работает в моей ситуации ...
getData <- function(x) try(read.table(bzfile(x), sep = ",", row.names = NULL))
data <- lapply(seq_along(links), function(i) getData(links[[i]]))
что такое 'url'? – mnel
@mnel: 'url' - это URL-адрес HTTP-страницы веб-страницы для информации о репозитории проектов с открытым исходным кодом, такой как этот: http://flossdata.syr.edu/data/fc/2013/2013-Dec. –
Какой пакет использует 'htmlParse'? Кроме того, вы могли бы включить скрипт, когда он печатает, так, например, ясно, где именно происходит ошибка (на первой или второй строке)? Благодарю. –