Удалить все внешние ресурсы из HTML с помощью Nokogiri

Я хочу удалить все внешние ресурсы из html-файла. Я использую wget для создания локальных копий страницы. У Wget есть опции для преобразования ссылок в локальную файловую систему, и это вполне нормально, но все же некоторые ссылки (в конце глубины загрузки, я считаю) сохраняют их внешние src, поэтому они содержат http.Удалить все внешние ресурсы из HTML с помощью Nokogiri

Ближайший я мог бы получить, чтобы найти все, что содержит HTTP использует это:

doc.search ("// * [начинается-с (@href, 'HTTP')]")

Но это просто находит элементы href, а http также может быть в изображениях, видео и любом другом. Любые идеи, что было бы правильными инструкциями для Нокогири, чтобы рассказать мне все, что содержит http?

Спасибо.

источник

2012-03-16 Pod

Если вы просто хотите расширить свой поиск до элементов с любой атрибут, начиная с «HTTP», вы можете сделать это:

doc.search("//*[@*[starts-with(.,'http')]]")

источник

2012-03-16 12:56:19

Привет, спасибо так много! Для моих нужд мне пришлось немного изменить его, чтобы получить все, что содержало http. Но ваш код поставил меня в путь. Я использую теперь doc.search ("// @ * [start-with (., 'Http')]" – Pod

Разница в том, что мой оператор XPath (теперь опечатанный) находит все * элементы * с любыми атрибутами, начиная с 'http', в то время как ваши находят только сами атрибуты *. Либо все в порядке, это зависит только от того, что вы будете делать со спичками. –

Удалить все внешние ресурсы из HTML с помощью Nokogiri

ответ

Смежные вопросы