Я работаю над простым скриптом для очистки данных из таблиц HTML. Проблема в том, что таблица содержит специальные символы, даже если она говорит, что она загружается как utf-8.R специальных символов из html-таблиц
library(XML)
webpage.Name <- "http://www.registeruz.sk/cruz-public/domain/financialreport/show/4817607"
webpage.Name.table <- readHTMLTable(webpage.Name, header=T, which=1,stringsAsFactors=F)
Пример данных Царапины:
V1 V2
1 Mimoriadna <NA>
2 <NA>
3 Ă<U+009A>ÄŤtovná jednotka: malá
4 DaĹ<U+0088>ovĂ© identifikaÄŤnĂ© ÄŤĂslo: 2023790373
Я попытался с помощью GSUB и изменения некоторых узоров, но это не похоже на работу. То же самое с iconv от utf-8 до latin1. Не имеет значения, содержат ли данные после выскабливания специальные символы или нет.