2015-10-10 2 views
1

Я работаю над простым скриптом для очистки данных из таблиц HTML. Проблема в том, что таблица содержит специальные символы, даже если она говорит, что она загружается как utf-8.R специальных символов из html-таблиц

library(XML) 
webpage.Name <- "http://www.registeruz.sk/cruz-public/domain/financialreport/show/4817607" 
webpage.Name.table <- readHTMLTable(webpage.Name, header=T, which=1,stringsAsFactors=F) 

Пример данных Царапины:

 V1            V2 
1 Mimoriadna          <NA> 
2             <NA> 
3 Ă<U+009A>ÄŤtovná jednotka:      malá 
4 DaĹ<U+0088>ovĂ© identifikaÄŤnĂ© ÄŤĂ­slo:  2023790373 

Я попытался с помощью GSUB и изменения некоторых узоров, но это не похоже на работу. То же самое с iconv от utf-8 до latin1. Не имеет значения, содержат ли данные после выскабливания специальные символы или нет.

ответ

3

Использование encoding = "UTF-8" в readHTMLTable()

df <- readHTMLTable(webpage.Name, 
    header = TRUE, which = 1, stringsAsFactors = FALSE, encoding = "UTF-8") 
head(df, 4) 
#       V1       V2 
# 1     Mimoriadna      <NA> 
# 2             <NA> 
# 3   Účtovná jednotka:      malá 
# 4 Daňové identifikačné číslo:     2023790373 
Смежные вопросы