Я использую rvest для очистки веб-страниц. Раньше я открывал сеанс с URL-адресом и вызывал сразу такие функции, как html_node()
.Нужно ли использовать read_html в rvest перед очисткой страницы html?
Я заметил, что большинство примеров, которые я вижу, продолжают читать страницу, прежде чем анализировать ее содержимое. Я проверил оба варианта и измерил прошедшее время системы и не увидел существенной разницы. Может ли кто-нибудь посоветовать, действительно ли нужно заранее прочитать всю страницу с read_html()
?
здесь тестируемом образце
library(rvest)
url="https://cran.r-project.org/doc/manuals/r-release/R-lang.html"
sess=html_session(url)
system.time(html_nodes(sess,"div"))
# user system elapsed
# 0.02 0.00 0.02
> system.time(html_nodes(read_html(sess),"div"))
# user system elapsed
# 0.02 0.00 0.02
Благодаря
Благодарим за ясное объяснение. Я сомневался, что это изменит ситуацию, если вы сделаете много вызовов на странице, но мой вопрос объясняется тем, что структура данных сеанса для меня не очень понятна, и я подозревал, что она может уже содержать всю информацию на странице. – OAA