Как преобразовать строку в UTF8 в Ruby

Я пишу сканер, который использует Hpricot. Он загружает список строк с некоторой веб-страницы, затем я пытаюсь записать ее в файл. Что-то с кодировкой:Как преобразовать строку в UTF8 в Ruby

"\xC3" from ASCII-8BIT to UTF-8

У меня есть элементы, которые отображаются на веб-странице и отпечатанные таким образом:

DÃ©veloppement

в str.encoding возвращается UTF-8, так force_encoding('UTF-8') не помогает. Как я могу преобразовать это в читаемый UTF-8?

источник

2013-06-10 ciembor

Hpricot больше не поддерживается, не рекомендуется использовать Nokogiri. Кроме того, вы, вероятно, должны указать, что такое кодировка исходной веб-страницы. –

Ваша строка, кажется, был закодирован навыворот:

"DÃ©veloppement".encode("iso-8859-1").force_encoding("utf-8") 
#=> "Développement"

источник

2013-06-10 12:24:08 Stefan

Он работает хорошо для большинства случаев. Но иногда: «U + 201C от UTF-8 до ISO-8859-1 в CIDEM/ACC1Ã» ' ' U + 20AC от UTF-8 до ISO-8859-1 в инвестициях устойчивого развития Citi', т. Кроме того, некоторые имена преобразуются, но ошибочны, и я не могу засеять их в базе данных с сообщением об ошибке «неполный многобайтовый символ» – ciembor

Извините, это не предназначалось для исправления. Вы должны исправить эту проблему, установив/обнаружив правильную кодировку при чтении строк в приложении. – Stefan

@Stefan, отличное решение, спасибо! – gaussblurinc

Кажется, ваша строка думает, что это UTF-8, но на самом деле, это что-то еще, вероятно, ISO-8859-1.

Сначала определите правильную кодировку, затем преобразуйте ее в UTF-8.

В вашем примере:

puts "DÃ©veloppement".encode('iso-8859-1').encode('utf-8')

Альтернатива:

puts "\xC3".force_encoding('iso-8859-1').encode('utf-8') #-> Ã

Если Ã не имеет смысла, то попробуйте другую кодировку.

источник

2013-06-10 14:33:35 knut

"ruby 1.9: invalid byte sequence in UTF-8" описал еще один хороший подход с меньшим количеством кода:

file_contents.encode!('UTF-16', 'UTF-8')

источник

2015-01-08 13:43:01 kaleb4eg

Как преобразовать строку в UTF8 в Ruby

ответ

Смежные вопросы