Я ищу полезные полезные камни в рубине для очистки. В принципе, я ищу, чтобы очистить основной корпус со страницы. То есть, только основное тело и его медиа (изображения). Нет боковых или нижних колонтитулов или типов навигационных элементов.Скопируйте текст и медиа с URL-адреса
Я знаю, что соскабливание требует множества специфических особенностей, таких как знание классов и идентификаторов и т. Д. Поэтому мне интересно, есть ли инструмент, который делает что-то вроде этого?
Хорошим примером может служить опция «Просмотр читателя» в сафари, когда на iOS. Там, где он просто показывает исходный контент со страницы. С необходимыми заголовками и параграфами.
Попробуйте [nokogiri] (http://www.nokogiri.org/). – orde
Право, мне интересно, как я могу начать добычу заголовков, абзацев и изображений (и без боковых панелей, содержимого заголовка и нижнего колонтитула), не зная xpath – psharma