2015-10-23 2 views
7

Я пытаюсь очистить содержимое от http://google.com. сообщение об ошибке выходит. была достигнута
Тайм-аут В дополнение::rvest Ошибка в open.connection (x, "rb"): время ожидания достигнуто

library(rvest) 
html("http://google.com") 

Ошибка в open.connection (х, "RB") сообщение
Предупреждение: 'HTML' является устаревшим.
Вместо этого используйте 'read_html'.
См помощи («Устаревшие»)

, поскольку я использую сеть компании, это может быть вызвано брандмауэром или прокси-сервером. Я пытаюсь использовать set_config, но не работает.

+0

Вы также попробовали команду 'read_html', так как сообщение об ошибке говорит, что' html' является устаревшим ... Это может не решить вашу проблему, но, возможно, результат более полезен ... – drmariod

+0

да, это сообщение: Ошибка в open.connection (x, "rb"): был достигнут тайм-аут . Кроме того: Предупреждение: Закрытие неиспользуемого соединения 3 (http://google.com) – user3267649

+0

Фактически, этот код отлично работает в моей домашней сети. но когда я пытаюсь использовать этот код в сети компании, возникает ошибка. – user3267649

ответ

3

Возможно, это связано с тем, что ваш вызов read_html (или html в вашем случае) неправильно идентифицирует себя на сервере, из которого он пытается извлечь контент, что является поведением по умолчанию. Используя curl, добавьте агент пользователя в аргумент handle read_html, чтобы ваш скребок идентифицировал себя.

library(rvest) 
library(curl) 
read_html(curl('http://google.com', handle = curl::new_handle("useragent" = "Mozilla/5.0"))) 
7

я столкнулся с теми же Error in open.connection(x, “rb”) : Timeout was reached проблем при работе через прокси в офисной сети.

Вот что работал для меня,

library(rvest) 
url = "http://google.com" 
download.file(url, destfile = "scrapedpage.html", quiet=TRUE) 
content <- read_html("scrapedpage.html") 

Кредит: https://stackoverflow.com/a/38463559

0

Я столкнулся с этой проблемой, потому что мой VPN был включен. Сразу же после его отключения я снова попытался, и он решил проблему.

Смежные вопросы