Метод Ruby для удаления акцентов из международных символов UTF-8

Я пытаюсь создать «нормализованную» копию строки, чтобы уменьшить дублирующиеся имена в базе данных. Имена содержат много международных символов (например, букв с акцентом), и я хочу создать копию с удаленными акцентами.Метод Ruby для удаления акцентов из международных символов UTF-8

Я натолкнулся на приведенный ниже метод, но не могу заставить его работать. Я не могу найти, что такое плагин Unicode Hacks.

# Utility method that retursn an ASCIIfied, downcased, and sanitized string. 
    # It relies on the Unicode Hacks plugin by means of String#chars. We assume 
    # $KCODE is 'u' in environment.rb. By now we support a wide range of latin 
    # accented letters, based on the Unicode Character Palette bundled inMacs. 
    def self.normalize(str) 
    n = str.chars.downcase.strip.to_s 
    n.gsub!(/[Ã Ã¡Ã¢Ã£Ã¤Ã¥ÄÄ?]/u, 'a') 
    n.gsub!(/Ã¦/u,     'ae') 
    n.gsub!(/[ÄÄ?]/u,    'd') 
    n.gsub!(/[Ã§Ä?ÄÄ?Ä?]/u,   'c') 
    n.gsub!(/[Ã¨Ã©ÃªÃ«Ä?Ä?Ä?Ä?Ä?]/u, 'e') 
    n.gsub!(/Æ?/u,     'f') 
    n.gsub!(/[ÄÄ?Ä¡Ä£]/u,   'g') 
    n.gsub!(/[Ä¥Ä§]/,    'h') 
    n.gsub!(/[Ã¬Ã¬ÃÃ®Ã¯Ä«Ä©Ä]/u,  'i') 
    n.gsub!(/[Ä¯Ä±Ä³Äµ]/u,   'j') 
    n.gsub!(/[Ä·Ä¸]/u,    'k') 
    n.gsub!(/[Å?Ä¾ÄºÄ¼Å?]/u,   'l') 
    n.gsub!(/[Ã±Å?Å?Å?Å?Å?]/u,  'n') 
    n.gsub!(/[Ã²Ã³Ã´ÃµÃ¶Ã¸ÅÅ?ÅÅ]/u, 'o') 
    n.gsub!(/Å?/u,     'oe') 
    n.gsub!(/Ä?/u,     'q') 
    n.gsub!(/[Å?Å?Å?]/u,    'r') 
    n.gsub!(/[Å?Å¡Å?ÅÈ?]/u,   's') 
    n.gsub!(/[Å¥Å£Å§È?]/u,   't') 
    n.gsub!(/[Ã¹ÃºÃ»Ã¼Å«Å¯Å±ÅÅ©Å³]/u,'u') 
    n.gsub!(/Åµ/u,     'w') 
    n.gsub!(/[Ã½Ã¿Å·]/u,    'y') 
    n.gsub!(/[Å¾Å¼Åº]/u,    'z') 
    n.gsub!(/\s+/,     ' ') 
    n.gsub!(/[^\sa-z0-9_-]/,   '') 
    n 
    end

Нужно ли «требовать» конкретную библиотеку/драгоценный камень? Или, может быть, кто-то может порекомендовать другой способ этого.

Я не пользуюсь Rails и не планирую делать это.

источник

2013-03-28 Gus Shortz

Какой версией рубина вы используете? – Huluk

Взгляните на http://stackoverflow.com/questions/1268289/how-to-get-rid-of-non-ascii-characters-in-ruby – MurifoX

, вы также можете посмотреть: https://github.com/norman/unidecoder –

148

Я обычно использую I18n, чтобы справиться с этим:

1.9.3p392 :001 > require "i18n" 
=> true 
1.9.3p392 :002 > I18n.transliterate("Hé les mecs!") 
=> "He les mecs!"

источник

2013-03-29 03:29:43 user2398029

[Документация] (http://api.rubyonrails.org/classes/ActiveSupport/Inflector.html#method -i-Transliterate). Способность устанавливать транслитерации на основе каждой локали также очень эффективна. –

Кажется, это то, что я ищу. Благодарю. –

Прямо под моим носом. Спасибо! – Trip

До сих пор следующий единственный способ, которым я был в состоянии сделать то, что мне нужно:

str.tr(
"ÀÁÂÃÄÅàáâãäåĀāĂăĄąÇçĆćĈĉĊċČčÐðĎďĐđÈÉÊËèéêëĒēĔĕĖėĘęĚěĜĝĞğĠġĢģĤĥĦħÌÍÎÏìíîïĨĩĪīĬĭĮįİıĴĵĶķĸĹĺĻļĽľĿŀŁłÑñŃńŅņŇňŉŊŋÒÓÔÕÖØòóôõöøŌōŎŏŐőŔŕŖŗŘřŚśŜŝŞşŠšſŢţŤťŦŧÙÚÛÜùúûüŨũŪūŬŭŮůŰűŲųŴŵÝýÿŶŷŸŹźŻżŽž", 
"AAAAAAaaaaaaAaAaAaCcCcCcCcCcDdDdDdEEEEeeeeEeEeEeEeEeGgGgGgGgHhHhIIIIiiiiIiIiIiIiIiJjKkkLlLlLlLlLlNnNnNnNnnNnOOOOOOooooooOoOoOoRrRrRrSsSsSsSssTtTtTtUUUUuuuuUuUuUuUuUuUuWwYyyYyYZzZzZz")

Но с помощью этого чувствует себя очень «хак», и я хотел бы, чтобы найти лучший путь.

источник

2013-03-29 03:21:21

Это работает только для ISO-8859-1. Что заставляет вас думать, что это работает для UTF-8? – pts

Это работает для UTF-8 и ruby 2.2.3 и делает именно то, что мне нужно. Однако не хватает румынских персонажей. Я aded их: 'string.tr ( "ÀÁÂÃÄÅàáâãäåĀāĂăĄąÇçĆćĈĉĊċČčÐðĎďĐđÈÉÊËèéêëĒēĔĕĖėĘęĚěĜĝĞğĠġĢģĤĥĦħÌÍÎÏìíîïĨĩĪīĬĭĮįİıĴĵĶķĸĹĺĻļĽľĿŀŁłÑñŃńŅņŇňŉŊŋÒÓÔÕÖØòóôõöøŌōŎŏŐőŔŕŖŗŘřŚśŜŝŞşŠšŞşsŢţŤťŦŧŢţÙÚÛÜùúûüŨũŪūŬŭŮůŰűŲųŴŵÝýÿŶŷŸŹźŻżŽž", "AAAAAAaaaaaaAaAaAaCcCcCcCcCcDdDdDdEEEEeeeeEeEeEeEeEeGgGgGgGgHhHhIIIIiiiiIiIiIiIiIiJjKkkLlLlLlLlLlNnNnNnNnnNnOOOOOOooooooOoOoOoRrRrRrSsSsSsSsSssTtTtTtTtUUUUuuuuUuUuUuUuUuUuWwYyyYyYZzZzZz")' – Alexander

Метод Ruby для удаления акцентов из международных символов UTF-8

ответ

Смежные вопросы