У меня возникают проблемы с чтением узла XML с использованием R в фрейм данных. Я новичок в чтении в XML-данных.Преобразование XML-строки в dataframe в R
Это то, что мне удалось получить:
require(dplyr)
require(rvest)
url <- "http://rstudio-pubs-static.s3.amazonaws.com/177866_49f6965521224dd883df5f20f9c32db3.html"
x <- read_html(url) %>%
html_node("code") %>%
html_text()
x1 <- gsub("##", "", x)
df <- read.table(text = x1, fill = TRUE, sep = "\n", header=TRUE, allowEscapes = TRUE)`
Однако, похоже, read.table() уходят некоторые наблюдения и не ограничивающие несколько строк.
Все, что я получаю текст XML в простой фрейм данных. Хотелось бы получить некоторое представление о том, как лучше обрабатывать этот материал XML.
Существует подозрительно называется 'XML' пакет ... – lmo
Эта страница является боль в ***. Набор данных был обернут уценкой, так что на самом деле он оказался сложным. Нет никакого способа, чтобы вы прочитали его правильно, не выполняя некоторую реконструкцию или не читая 500 строк за один раз, а затем свяжите их. Похоже, что есть три набора из 500 –
Да, я знаю о пакете XML и использовал его и, как и расположение пакета rvest, лучше. Мне удалось справиться с строкой, чтобы прочитать ее, и strsplit с разделителем «\ n»; однако, если смотреть вниз, похоже, что 250 строк были разделены на новую строку с помощью «\ n». Я собирался прочитать все это и сделать некоторые преобразования. У меня просто проблемы с чтением на всех 1500 линиях отдельно и можно использовать некоторую помощь. – KenDazzo