У меня есть ссылка, которая содержит table. Первое, что я пробовал, - это найти, есть ли кнопка для клика и, к сожалению, нет. Затем я попытался использовать пакет с номером XML
в R, чтобы получить данные между разными узлами, чтобы самостоятельно создать кадр данных.Как извлечь данные из html в R
Для этого мне нужно знать, какой узел (или тег HTML) я хотел бы извлечь. Поэтому я нажимаю правой кнопкой мыши на веб-браузере и нахожу тег, который содержит нужную мне таблицу.
От <fieldset id="result"
начинает содержание таблицы. Мы также видим из браузера первую строку таблицы: <li class="vesselResultEntry removeBackground">
.
Затем, когда я пытался использовать R, чтобы загрузить этот HTML-код, я нашел целые теги <li>
, которые касаются таблицы и заменены на <li class="toRemove"/>
. Вот мой R код ниже, кстати:
library(XML)
url <- "http://www.fao.org/figis/vrmf/finder/search/#stats"
webpage <- readLines(url)
htmlpage <- htmlParse(webpage, asText = TRUE)
data <- xpathSApply(htmlpage, "//ul[@id='searchResultsContainer']")
data
# <ul id="searchResultsContainer" class="clean resultsContainer"><li class="toRemove"></li></ul>
То, что я пытаюсь сделать в коде, просто чтобы увидеть, если я могу принести содержание в определенном теге. Очевидно, что строка, которую я хочу получить, не находится в объекте (webpage
) Я сохранил.
Так что мои вопросы:
Есть ли способ, чтобы загрузить таблицу я хочу любыми способами (в идеале R)?
Есть ли какая-то защита на этом веб-сайте, которая мешает мне загружать весь HTML в виде текстового файла и извлекать данные?
Ценит за любые предложения
Кажется, дубликат http://stackoverflow.com/questions/23028760/download-a-file-from-https-using-download-file – Ouroborus
@Ouroborus Он использует другую библиотеку. –
Посмотрите на использование xPath, который является независимым от языка способом запроса структуры XML. Кстати, вы никогда не говорили нам, что вы на самом деле здесь. –