2016-12-02 1 views
1

Учитывая строку, такую ​​как "Whatup &nbsp; <b>whatever<b> \n", мне нужно превратить ее в «Что бы ни было».Удалите все неабсолютные символы из строки, включая   & или любой код и код

Я довольно близко к моему методу ниже, но я не могу найти хороший способ удалить динамические коды и &nbsp;. Я не хочу gsub каждый из них (например, я делаю с запятой). В них сотни тысяч строк и множество разных кодов ... blah

Любые указатели приветствуются.

def self.clean_string(st) 
    return strip_tags(st).force_encoding("UTF-8").gsub(",","").squish if st and st != "" 
    end 

ответ

1

Для HTML сущностей, добавить регулярное выражение замены:

.gsub(/&[^;]+;/, '') 

Это позволит удалить &amp; -style объект из текста.

+0

который должен работать. я мог бы разветвить его, чтобы найти отсутствующую полуколону. Наши данные обрабатываются с помощью разметки ppl, которые не пишут код – jahrichie

Смежные вопросы