Мне нужно просмотреть весь текст в документе HTML, который был разобран с помощью Nokogiri. Здесь мой код:Как обрабатывать весь HTML-документ, обработанный Nokogiri
agent = Mechanize.new
page = agent.get('http://www.example.com').parser.search('//*[translate(text(),"ABCDEFGHIJKLMNOPQRSTUVWXYZ", "abcdefghijklmnopqrstuvwxyz") = *]').to_html
В коде нет такой ошибки; он выполняется без ошибок. Однако, если я зашел и проверил случайный тег в документе, дело все равно будет таким же, как и раньше. Есть ли другой/лучший способ удалить весь текст в документе?
Добавить .downcase следующего to_html? – daremkd
@ daremkd: Нет, не работает. – Severin
to_html создает строку и добавляет нижний предел рядом с_html, поэтому это to_html.downcase сделает всю строку в нижнем регистре. Что вы пытаетесь сделать в точности, просто попробуйте сделать текстовый файл (между тегами) или сделать все в нижнем регистре, включая теги? Можете ли вы привести пример? – daremkd