Я пытаюсь отказаться от набора новостей, используя rvest и boilerpipeR. Код работает отлично в течение большей части времени, однако он сбой для некоторых конкретных значений. Я искал онлайн высоко и низко и не мог найти никого подобного.read_html() вызывает фатальную ошибку в сеансе R
require(rvest)
require(stringr)
require(boilerpipeR)
# this is a problematic URL, its duplicates also generate fatal errors
url = "http://viagem.estadao.com.br/noticias/geral,museu-da-mafia-ganha-exposicao-permanente-da-serie-the-breaking-bad,10000018395"
content_html = getURLContent(url) # HTML source code in character type
article_text = ArticleExtractor(content_html) # returns 'NA'
# next line induces fatal error
encoded_exit = read_html(content_html ,encoding = "UTF-8")
paragraph = html_nodes(encoded_exit,"p")
article_text = html_text(paragraph)
article_text = iconv(article_text,from="UTF-8", to="latin1")
Это не единственная новость, что часть ArticleExtractor() возвращает «NA», чтобы и код был построен, чтобы справиться с этим в качестве жизнеспособного результата. Весь этот фрагмент находится внутри tryCatch(), поэтому регулярные ошибки не могут остановить выполнение.
Основная проблема заключается в том, что весь сеанс R просто сбой и должен быть перезагружен, что мешает мне захватывать данные и отлаживать их. Что может быть причиной этой проблемы? И как я могу остановить его от сбоя всей сессии R?
Спасибо за ответ. Я опаздываю на год и даже не работаю с R, но мне удалось перестроить среду, воспроизвести ошибку и проверить, что ваш обходной способ действительно работает. Престижность к вам. –