Есть ли простой способ проанализировать HTML-страницу, чтобы просто получить текст, который является видимым для пользователя? Я хочу избавиться от всех тегов, ссылок, JavaScript и вернуть текстовый контент, который был на странице.Очистить весь видимый текст с веб-страницы
Я просто хочу сохранить информацию и вернуться к ней позже, но использовать ее в поиске.
Пытались Nokogiri и Капибара/Полтергейст
doc.css('body').text
Но это дает мне все виды JavaScript и мусор, который я предпочел бы не видеть.
Есть ли способ разбить биты текста и выгрузить их в строку, игнорируя все «код»?
Вы хотите, чтобы текст после CSS и JavaScript имели возможность скрыть/переместить текст или вы хотите, чтобы текст отображался, если JavaScript и CSS не были включены? –
Только смотреть, чтобы взять видимый текст, прежде чем js в порядке. Нашел метод, используя capybara, который делает работу элегантно и просто. Было бы очень полезно сделать это с помощью Nokogiri/Mechanize. – Carpela