Я хочу очистить HTML-страницу своих тегов с помощью Ruby. У меня есть необработанный HTML-код и вы хотите определить список тегов, например. [ «Пядь», «Ли», «DIV»], и создать массив регулярных выражений, которые я мог бы работать последовательно, так что у меня естьRuby список тегов для свободного регулярного выражения
clean_text = raw.gsub(first_regex,' ').gsub(second_regex,' ')...
с двумя регулярными выражениями в теге (начало и конец) ,
Есть ли у меня способ сделать это программно (т. Е. Предварительно построить массив регулярных выражений из массива тегов, а затем запустить их в свободном шаблоне)?
EDIT: Я понимаю, что на самом деле я задал сразу два вопроса. Первый из них касается преобразования списка тегов в список регулярных выражений, а второй - о вызове списка регулярных выражений в качестве свободного. Спасибо, что ответили на оба вопроса. Я постараюсь сделать свои следующие вопросы однотипными.
у вас подумал об использовании правильного анализатора xml/html (например, nokogiri http://nokogiri.org/)? –
Ну, правильный синтаксический анализатор xml/html - это более надежное решение, но я хочу «просто текст», желая терпеть несколько шумный результат взамен того, что вам не нужно отображать точную структуру документа. –